Dimensionamento de amostras

Vimos no Capítulo 5 e nas seções anteriores deste capítulo como construir intervalos e testes de hipóteses para os principais parâmetros populacionais. Em todos os, supusemos dado o nível de confiança desses intervalos e testes. Evidentemente, o nível de confiança deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimação por intervalo e testes. Sendo conveniente, o nível de confiança pode ser aumentado até tão próximo de 100% quanto se queira, mas isso resultará em intervalos de amplitude cada vez maiores (e testes com poderes cada vez menores), o que significa perda de precisão na estimação. É claro que seria desejável termos intervalos com alto nível de confiança e pequena probabilidade de erro e grande precisão. Isso porém requer uma amostra suficientemente grande, pois, para $n$ fixo, confiança e precisão variam em sentidos opostos.

Veremos a seguir como determinar o tamanho das amostras necessárias nos casos de estimação da média ou de uma proporção populacional. Vimos na Seção 5.4 que o intervalo de confiança de 95% para a média $\mu$ da população quando $\sigma$ é conhecido tem semi-amplitude $d$ dada pela expressão

\begin{displaymath}d=z \frac{\sigma}{\sqrt{n}},\end{displaymath}

onde $z=1.96$ para uma confiança de 95%. Ora, o problema então resolvido foi, fixados o nível de confiança ($1-\alpha=0.95$) e $n$, determinar $d$. Mas, é evidente dessa expressão que podemos resolver outro problema. Fixados, $d$ e o nível de confiança, determinar $n$, que é o problema da determinação do tamanho de amostra necessário para se realizar a estimação por intervalo com a confiança e a precisão desejadas. Vemos imediatamente que

\begin{displaymath}n=\left(\frac{z \sigma}{d}\right)^2.\end{displaymath}

Essa será a expressão usada se $\sigma$ for conhecido.

Não conhecendo o desvio-padrão da população, deveríamos subtituí-lo por sua estimativa $s$ e usar $t$ de Student na expressão acima. Ocorre porém que não tendo ainda sido retirada a amostra, não dispomos em geral do valor de $s$. Se não conhecemos nem ao menos um limite superior para $\sigma$, a única solução será colher uma amostra-piloto de $n_0$ elementos para, com base nela obtermos uma estimativa de $s$, empregando a seguir a expressão

\begin{displaymath}n=\left(\frac{t_{(n_0-1,0.05)} s}{d}\right)^2.\end{displaymath}

Se $n \leq n_0$, a amostra-piloto já terá sido suficiente para a estimação. Caso contrário, deveremos retirar, ainda, da população os elementos necessários à complementação do tamanho mínimo de amostra.

Procedemos de forma análoga se desejamos estimar uma proporção populacional com determinada confiança e dada precisão. No caso de população suposta infinita, da expressão

\begin{displaymath}d=z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\end{displaymath}

podemos obter

\begin{displaymath}n=\left(\frac{z}{d}\right)^2 p(1-p).\end{displaymath}

O obstáculo à determinação do tamanho de amostra por meio da expressão acima está em desconhecermos $p$. Essa dificuldade pode ser resolvida através de uma amostra-piloto, analogamente ao caso descrito para a estimação de $\mu$, ou analisando-se o comportamento do fator $p(1-p)$ para $0 \leq p \leq 1$. Vê-se da figura a seguir que $p(1-p)$ é a expressão de uma parábola cujo ponto de máximo é $p=1/2$.
\includegraphics[width=2.8in]{pics/parab.ps}

Se substituirmos, $p(1-p)$ por seu valor máximo, 1/4, seguramente o tamanho de amostra obtido será suficiente para a estimação de qualquer que seja $p$. Isso equivale a considerar

\begin{displaymath}n=\left(\frac{z}{d}\right)^2 \frac{1}{4}=\left(\frac{z}{2d}\right)^2 .\end{displaymath}

Evidentemente, usando-se essa expressão corre-se o risco de se superdimensionar a amostra. Isso ocorrerá se $p$ for na realidade próximo de 0 ou 1. Se o custo envolvido for elevado e proporcional ao tamanho de amostra, é mais prudente a tomada de uma amostra-piloto.



Subsecções
Silvia E Shimakura 2006-08-30