Subsecções

6 Testes de Hipóteses

6.1 Introdução e notação

Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o parâmetro populacional tem um valor em particular ou não). Teste de hipóteses fornece-nos a estrutura para que façamos isto. Veremos que intervalos de confiança e testes de hipóteses estão intimamente relacionados.

6.1.1 Os pássaros migratórios engordam antes de migrar?

Considere os dados coletados pelo ornitologista na página 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora é natural perguntar se em média estes pássaros engordam entre Agosto e Setembro. Somente 10 pássaros foram capturados e seu peso médio nas duas ocasiões foram 11.47 e 12.35 então o peso médio aumentou para esta amostra em particular. (Note que o mesmo conjunto de pássaros foram medidos ambas as vezes.) Podemos generalizar para o resto dos pássaros que não foram capturados? Será que esta diferença poderia ser devida simplesmente ao acaso?

Queremos testar a hipótese nula (H$_0$) de que, em média, não existe mudança no peso dos pássaros. Assumiremos que os 10 pássaros foram uma amostra aleatória de todos os pássaros migradores daquela espécie e usaremos primeiramente o que aprendemos sobre intervalos de confiança para responder nossas perguntas.

Primeiro vamos calcular as mudanças de peso (Setembro-Agosto):

\begin{displaymath}1.9 ~~~ 0.7 ~~~ 2.2 ~~ -0.1 ~~~ 2.0 ~~~ 1.0 ~~ -0.8 ~~ -0.2
~~~ 1.8 ~~~ 0.3\end{displaymath}

Seja $\mu$ a mudança média de peso na população. Então nossa hipótese nula H$_0$ e a hipótese alternativa H$_1$ podem ser escritas como segue:

\begin{displaymath}{\rm H}_0: ~ \mu~=~0, \quad \quad {\rm H}_1: ~ \mu~\neq~0. \end{displaymath}

Um procedimento útil é calcular um intervalo de confiança para a média populacional $\mu$ como descrito na Seção 5.5, e ver ser o intervalo inclui 0 como um valor plausível.

Agora $n=10$, $\bar{x}=0.88$ e $s=1.065$ para as diferenças, então

\begin{displaymath}{\rm SE} = s/\sqrt{n} = 1.065/\sqrt{10} = 0.337,\end{displaymath}

e um valor-$t$ de 2.262 é obtido da coluna $P=0.05$ e linha $r=n-1=9$. Um intervalo de confiança de 95% para $\mu$ é portanto

\begin{displaymath}
(0.88 - 2.262 \times 0.337,~ 0.88 + 2.262 \times 0.337) ~ = ~
(0.12,~1.64).\end{displaymath}

O intervalo não contem o valor 0, fornecendo evidências contra a hipótese nula.

Podemos dizer: ``existem evidências significativas ($P<0.05$) de que, em média, os pássaros da espécie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes de que em média os pesos aumentam por um montante entre 0.12 e 1.64 gramas.''

Mas e o intervalo de 99%? Será que ele conteria o valor 0? Este intervalo seria mais amplo e então é mais provável que ele contenha 0. Se ele não incluir 0, isto indicaria uma evidência ainda mais forte contra $H_0$.

Calculando o intervalo de confiança exatamente da mesma forma, exceto que desta vez precisamos olhar na coluna $P=0.01$ para obter $t=3.250$:

\begin{displaymath}(0.88 - 3.250 \times 0.337,~ 0.88 + 3.250 \times 0.337) ~ = ~
(-0.21,~1.97).\end{displaymath}

Como esperado, este é mais amplo, e agora inclui o valor 0.

Podemos agora dizer: ``não existem evidências significativas ao nível de 1% de que, em média, os pássaros da espécie estudada mudam de peso de Agosto para Setembro.''

O que nós acabamos de fazer foi conduzir um teste perfeitamente válido para a hipótese nula usando intervalos de confiança. Podemos fazer o teste mais rapidamente e obter exatamente as mesmas conclusões pelo seguinte procedimento:

6.2 Procedimento geral de teste



  1. Estabeleça a hipótese nula, H$_0$ e a hipótese alternativa H$_1$.
  2. Decida qual oteste a ser usado, checando se este é válido para o seu problema.
  3. Calcule a estatística de teste, T.
  4. Encontre a probabilidade (p-valor) de observar um valor tão extremo ou maior do que T se a hipótese nula é de fato verdadeira. Você precisará se referir aos valores críticos nas tabelas estatísticas as quais fornecem $p$-valores correspondendo aos valores das estatística de teste.
  5. Avalie a força da evidência contra H$_0$.(Quanto menor $p$-valor, tanto mais evidência contra a hipótese nula.) Se necesário, decida se esta é evidência suficiente para rejeitar (ou não rejeitar) a hipótese nula.
  6. Estabeleça as conclusões e interpretação dos resultados.

O $p$-valor é a probabilidade de observar dados tão extremos quanto os obtidos se a hipótese nula é verdadeira. Note as seguintes interpretações de $p$-valores:

\fbox{\begin{tabular}{ll}
$P~\ge~0.10$\ ~ & ~ Não existe evidência contra H$_0$\...
...~<~0.001$\ ~ & ~ Evidência muito altamente significativa $\ldots$
\end{tabular}}

Esteja ciente da diferença entre significância estatística e significância prática. Um efeito pode ser estatisticamente significante mas não ter qualquer importância prática e vice-versa. Por exemplo, um estudo muito grande pode estimar a diferença entre a média de peso de plantas como sendo 0.0001 gramas e concluir que a diferença é estatísticamente significativa ($p<0.05$). Contudo, na prática, esta diferença é negligível e provavelmente de pouca importância prática.

6.3 Teste para uma média

Na Seção 5.1.1 conduzimos, através de um exemplo, o chamado teste-t para uma única média. Os passos principais de tal test-t para uma amostra aleatória $x_1, x_2, \ldots, x_n$ de uma população com média $\mu$ são dados a seguir:

  1. Estabeleça a hipótese nula, H $_0: ~ \mu = \mu_0$, e a hipótese alternativa H $_1: ~\mu \neq \mu_0$.
  2. Calcule a média amostral $\hat{\mu}=\bar{x}$ e o desvio padrão amostral $s$.
  3. Calcule o erro padrão, SE$=s/\sqrt{n}$.
  4. Calcule a estatística de teste $t=(\hat{\mu}-\mu_0)/{\rm
SE}$. Este é o número de erros padrão que $\hat{\mu}$ dista do valor de hipótese $\mu_0$.
  5. Encontre o $p$-valor da distribuição $t$, com $r=n-1$ graus de liberdade, da tabela usando os valores absolutos da estatística de teste.
  6. Estabeleça conclusões e interprete os resultados.

6.4 Teste para uma proporção

Agora suponha que tenhamos um valor hipotético $p_0$ para uma proporção. Podemos realisar um teste de H$_0: p=p_0$ praticamente da mesma forma que o test-t acima. A dualidade com intervalos de confiança segue exatamente da mesma forma.

Suponha que tenhamos uma amostra aleatória de tamanho $n$ de uma população de interesse onde a verdadeira proporção de membros numa categoria em particular é $p$. A hipótese nula é H$_0: ~ p =
p_0$. Se o número observado na categoria de interesse é $x$, então um teste da hipótese é como segue:

  1. Estabeleça a hipótese nula, H$_0: ~ p =
p_0$, e a hipótese alternativa H $_1: ~ p \neq p_0$.
  2. Calcule a proporção amostral $\hat{p}=x/n$.
  3. Calcule o erro padrão, SE $=\sqrt{\hat{p}(1-\hat{p})/n}$.
  4. Calcule $t=(\hat{p}-p_0)/{\rm SE}$, o número de erros padrão que $\hat{p}$ dista do valor de hipótese $p_0$.
  5. Encontre o $p$-valor usando o valor absoluto da estatística de teste da tabela da distribuição normal (ou equivalentemente da $t$ com $r=\infty$ graus de liberdade).
Uma regra geral é que este teste é válido quando quando temos ambos $n \hat{p}$ e $n (1-\hat{p})$ maiores do que digamos 10.

6.4.1 Exemplo

Referindo-se ao exemplo da Seção 5.8, suponha que alguém tenha sugerido de experiências passadas que 60% das larvas de mosquito no lago deveriam ser da espécie Aedes detritus. Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hipóteste?

6.5 Decisões e poder

Ao tomar uma decisão a favor ou contra uma hipótese existem dois tipos de erros que você pode cometer. Você pode rejeitar a hipótese nula quando de fato ela é verdadeira (erro tipo I) ou você pode falhar em rejeitar H$_0$ quando de fato ela é falsa (erro tipo II). Existe um balanço entre esses dois tipos de erros, no sentido de que ao tentar-se minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente denotamos as probabilidades destes dois erros como $\alpha$ e $\beta $ respectivamente.

\fbox{\begin{tabular}{c\vert c\vert c}
~ & \multicolumn{2}{c}{Decisão} \\
Verda...
...
H$_0$\ falso & Erro Tipo II & --- \\
~ & $\beta$\ & ($1-\beta$)
\end{tabular}}
O poder de um teste é a probabilidade de rejeitar a hipótese nula quando esta é de fato falsa. Isto é igual a $1-\beta$. Em geral, quanto maior o tamanho da amostra, maior o poder do teste. É desejável decidir sobre um tamanho de amostra conveniente antes de conduzir um estudo de forma que o resultados do teste de hipótese terá poder suficiente para responder a questão científica de interesse.

6.6 Dimensionamento de amostras

Vimos no Capítulo 5 e nas seções anteriores deste capítulo como construir intervalos e testes de hipóteses para os principais parâmetros populacionais. Em todos os, supusemos dado o nível de confiança desses intervalos e testes. Evidentemente, o nível de confiança deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estimação por intervalo e testes. Sendo conveniente, o nível de confiança pode ser aumentado até tão próximo de 100% quanto se queira, mas isso resultará em intervalos de amplitude cada vez maiores (e testes com poderes cada vez menores), o que significa perda de precisão na estimação. É claro que seria desejável termos intervalos com alto nível de confiança e pequena probabilidade de erro e grande precisão. Isso porém requer uma amostra suficientemente grande, pois, para $n$ fixo, confiança e precisão variam em sentidos opostos.

Veremos a seguir como determinar o tamanho das amostras necessárias nos casos de estimação da média ou de uma proporção populacional. Vimos na Seção 5.4 que o intervalo de confiança de 95% para a média $\mu$ da população quando $\sigma$ é conhecido tem semi-amplitude $d$ dada pela expressão

\begin{displaymath}d=z \frac{\sigma}{\sqrt{n}},\end{displaymath}

onde $z=1.96$ para uma confiança de 95%. Ora, o problema então resolvido foi, fixados o nível de confiança ($1-\alpha=0.95$) e $n$, determinar $d$. Mas, é evidente dessa expressão que podemos resolver outro problema. Fixados, $d$ e o nível de confiança, determinar $n$, que é o problema da determinação do tamanho de amostra necessário para se realizar a estimação por intervalo com a confiança e a precisão desejadas. Vemos imediatamente que

\begin{displaymath}n=\left(\frac{z \sigma}{d}\right)^2.\end{displaymath}

Essa será a expressão usada se $\sigma$ for conhecido.

Não conhecendo o desvio-padrão da população, deveríamos subtituí-lo por sua estimativa $s$ e usar $t$ de Student na expressão acima. Ocorre porém que não tendo ainda sido retirada a amostra, não dispomos em geral do valor de $s$. Se não conhecemos nem ao menos um limite superior para $\sigma$, a única solução será colher uma amostra-piloto de $n_0$ elementos para, com base nela obtermos uma estimativa de $s$, empregando a seguir a expressão

\begin{displaymath}n=\left(\frac{t_{(n_0-1,0.05)} s}{d}\right)^2.\end{displaymath}

Se $n \leq n_0$, a amostra-piloto já terá sido suficiente para a estimação. Caso contrário, deveremos retirar, ainda, da população os elementos necessários à complementação do tamanho mínimo de amostra.

Procedemos de forma análoga se desejamos estimar uma proporção populacional com determinada confiança e dada precisão. No caso de população suposta infinita, da expressão

\begin{displaymath}d=z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\end{displaymath}

podemos obter

\begin{displaymath}n=\left(\frac{z}{d}\right)^2 p(1-p).\end{displaymath}

O obstáculo à determinação do tamanho de amostra por meio da expressão acima está em desconhecermos $p$. Essa dificuldade pode ser resolvida através de uma amostra-piloto, analogamente ao caso descrito para a estimação de $\mu$, ou analisando-se o comportamento do fator $p(1-p)$ para $0 \leq p \leq 1$. Vê-se da figura a seguir que $p(1-p)$ é a expressão de uma parábola cujo ponto de máximo é $p=1/2$.
\includegraphics[width=2.8in]{pics/parab.ps}

Se substituirmos, $p(1-p)$ por seu valor máximo, 1/4, seguramente o tamanho de amostra obtido será suficiente para a estimação de qualquer que seja $p$. Isso equivale a considerar

\begin{displaymath}n=\left(\frac{z}{d}\right)^2 \frac{1}{4}=\left(\frac{z}{2d}\right)^2 .\end{displaymath}

Evidentemente, usando-se essa expressão corre-se o risco de se superdimensionar a amostra. Isso ocorrerá se $p$ for na realidade próximo de 0 ou 1. Se o custo envolvido for elevado e proporcional ao tamanho de amostra, é mais prudente a tomada de uma amostra-piloto.

6.6.1 Exemplos

  1. Qual o tamanho de amostra necessário para se estimar a média de uma população infinita cujo desvio-padrão é igual a 4, com 98% de confiança e precisão de 0,5?
  2. Qual o tamanho de amostra suficiente para estimarmos a proporção da área com solo contaminado que precisa de tratamento, com precisão de 0,02 e 95% de confiança, sabendo que essa proporção seguramente não é superior a 0,2?

6.7 Exercícios 5

  1. Exercícios 3, item 2. Teste a hipótese nula de que essa amostra provém de um corpo arenoso cuja média é $\mu=0,5mm$.
  2. A fim de testar a ocorrência de estratificação gradacional num certo arenito, amostras foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t verificar se as diferenças entre o tamanho médio das partículas da base e do topo são significativas ou não.
    \fbox{\begin{tabular}{crrr}
Estratos & base & topo& d=t-b \\
1&2,81&3,13&0,32\...
...0,23\\
5&3,25&3,65&0,36\\
6&3,90&4,20&0,30\\
7&3,30&3,12&-0,18
\end{tabular}}
  3. Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal, em segundos, num dado experimento, obtendo-se:
    \fbox{\begin{tabular}{rrrrrrrrrr}
13&15&12&14&17&15&16&15&14&16\\
17&14&16&15&15&13&14&15&16&15
\end{tabular}}
    Esses dados são suficientes, pergunta-se, para estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de confiança? Caso negativo, qual o tamanho da amostra adicional necessária?

  4. Deseja-se estimar a resitência média de certo tipo de peça com precisão de 2kg e 95% de confiança. Desconhecendo-se a variabilidade dessa resistência, roperam-se cinco peças, obtendo-se para elas os seguintes valores de sua resitência (em kg): 50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze peças, a fim de se conseguir o resultado desejado. Qual sua opinião a respeito dessa conclusão?

  5. Exercícios 4, item 1. Realize um teste estatístico para ajudá-lo na decisão se você deve ou não acreditar que a moeda é balanceada. Qual a sua conclusão?

  6. Suponha que estejamos interessados em estimar a proporção de todos os motoristas que excedem o limite máximo de velocidade num trecho da rodovia entre Curitiba-São Paulo. Quão grande deve ser a amostra para que estejamos pelo menos 99% confiantes de que o erro de nossa estimativa, a proporção amostral, seja no máximo 0,04?

  7. Refaça o exercício anterior, sabendo que temos boas razões para acreditar que a proporção que estamos tentando estimar é no mínimo 0,65.

Paulo Justiniano Ribeiro Jr