Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados principais de um estudo. Contudo, algumas vezes existe um particular interesse em verificar determinadas afirmações ou conjecturas. Por exemplo, podemos estar interessados em determinar se uma moeda é honesta, se certas quantidades são independentes, ou se populações distintas são similares do ponto de vista probabilístico. Cada uma destas afirmações constitui uma hipótese que pode ser associada a um modelo, i.e. pode ser parametrizada.
O material deste capítulo é fortemente baseado em deg89, Gamerman e Migon (1993) e Migon e Gamerman (1999). A teoria clássica de testes de hipóteses é apresentada a um nível mais formal em lehman86.
Chamamos de hipótese estatística qualquer afirmação que se faça sobre um parâmetro populacional desconhecido. A idéia básica é que a partir de uma amostra da população iremos estabelecer uma regra de decisão segundo a qual rejeitaremos ou aceitaremos a hipótese proposta. Esta regra de decisão é chamada de teste. Normalmente existe uma hipótese que é mais importante para o pesquisador que será denotada por e chamada hipótese nula. Qualquer outra hipótese diferente de será chamada de hipótese alternativa e denotada por . Veremos mais adiante que intervalos de confiança e testes de hipóteses estão intimamente relacionados.
Um professor aplica um teste do tipo certo-errado com 10 questões. Queremos testar a hipótese de que o aluno está advinhando.
Denotando por a probabilidade do aluno acertar cada questão a hipótese estatística de interesse pode ser formulada como Neste caso, a hipótese alternativa mais adequada é indicando que o aluno tem algum conhecimento sobre o assunto. Temos então 10 repetições do experimento com constante, portanto =''número de acertos'' tem distribuição binomial com parâmetros e desconhecido. Suponha que adotamos a seguinte regra de decisão: o aluno não está advinhando se acertar 8 ou mais questões. Isto equivale a rejeitar se (região de rejeição ou região crítica) e aceitar se ( região de aceitação).
No entanto, é possível que um aluno acerte 8 ou mais questões e esteja advinhando, isto é podemos rejeitar quando ela é verdadeira. A probabilidade de que isto ocorra é
Um fornecedor garante que 90% de sua produção não apresenta defeito. Para testar esta afirmação selecionamos ao acaso 10 itens de um lote e contamos o número de defeituosos. Decidimos não comprar o lote se o número observado de não defeituosos for muito pequeno (mas quão pequeno?).
Definindo =''número de não defeituosos na amostra de 10 itens''
temos então uma distribuição binomial com parâmetros e
desconhecido, e queremos testar
. Aqui é a proporção
de itens não defeituosos no lote e portanto a hipótese alternativa
deve ser
. Suponha que decidimos manter
e a partir deste valor vamos estabelecer a nossa regra de
decisão. Para isto vamos calcular para diferentes regiões
críticas, assim
Nestes dois exemplos os testes são chamados de unilaterais porque somente valores de um lado do espaço amostral foram utilizados para construir a região crítica. Podemos ter também testes bilaterais aonde os dois extremos do espaço amostral são usados como região crítica.
No caso geral então temos uma amostra aleatória
tomada de uma distribuição que envolve um parâmetro
desconhecido, definido em um espaço paramétrico . Assim, as
hipóteses podem ser definidas como
e
onde e são subconjuntos
disjuntos de .
Um teste é
especificado particiondo-se o espaço amostral
em dois subconjuntos. Um sobconjunto contem os valores de para
os quais será rejeitada e é chamado região crítica do teste, e o
outro contem os valores de para os quais será aceita e é
chamado região de aceitação do teste. Em resumo, um teste fica
determinado quando especificamos sua região crítica.
Além disso, uma hipótese pode ser classificada da seguinte maneira. Se o subconjunto , ou contém um único valor então é uma hipótese simples. Caso contrário, se contém mais de um valor então é uma hipótese composta. Nos exemplos 2..1 e 2..2 é uma hipótese simples enquanto é composta.
Ao tomar uma decisão a favor ou contra uma hipótese existem dois tipos de erros que podemos cometer. Podemos rejeitar a hipótese nula quando de fato ela é verdadeira (erro tipo I) ou podemos falhar em rejeitar quando de fato ela é falsa (erro tipo II). Frequentemente denotamos as probabilidades destes dois tipos de erro como e respectivamente.
Existe um balanço entre esses dois tipos de erros, no sentido de que ao tentar-se minimizar , aumenta-se . Isto é, não é possível minimizar estas duas probabilidades simultaneamente e na prática é costume fixar um valor (pequeno) para . Na Tabela 2.1 estão descritos as decisões que podemos tomar e os tipos de erro associados.
As características probabilísticas de um teste podem ser descritas através de uma função que associa a cada valor de a probabilidade de rejeitar . A função é chamada função de poder (ou potência) do teste. Assim, denotando por a região crítica a função de poder é definida como
A função de poder é a ferramenta utilizada para verificar a adequação de um teste ou para comparar dois ou mais testes. É claro que uma função de poder ideal seria tal que para satisfazendo e para satisfazendo . Em um problema prático no entanto raramente existirá um teste com estas características. Na Figura 2.1 abaixo está representada a função poder para o exemplo 2..2, i.e. , para onde . Note que neste exemplo se for maior do que digamos 0,8 então o teste quase certamente aceitará , indicando que o teste é adequado. Por outro lado, para valores de entre 0,7 e 0,8 o teste ainda rejeita com probabilidade baixa.
O tamanho ou nível de significância de um teste é definido como
Seja uma amostra aleatória da distribuição com e suponha que queremos testar . Suponha que a regra de decisão consiste em rejeitar se somente se . Neste caso a função poder é dada por
É mais útil começar o estuda da teoria de testes de hipóteses considerando apenas hipóteses simples. Isto equivale a dizer que uma amostra aleatória foi tomada de um dentre duas possíveis distribuições e queremos decidir de qual delas vem a amostra. Neste caso o espaço paramétrico contém apenas dois pontos, digamos e e queremos testar
As probabilidades dos dois tipo de erro são dadas por
[Teste Ótimo] Seja uma amostra aleatória de uma distribuição com função de (densidade) de probabilidade e defina . Se um teste rejeita quando , aceita quando e nada decide se , então qualquer outro teste é tal que
A razão é chamada razão de verossimilhanças (RV). O teorema estabelece então que um teste ótimo, no sentido de minimizar , rejeita quando a razão de verossimilhanças é pequena e aceita quando esta razão é grande.
Outro resultado vem do fato de que a hipótese e o erro tipo I são em geral privilegiados em problemas práticos. Assim, é usual considerar testes tais que não seja maior do que um nível especificado, digamos , e tentar minimizar .
[Neyman-Pearson] Seja uma amostra aleatória de uma distribuição com função de (densidade) de probabilidade e defina . Se um teste rejeita quando , aceita quando e nada decide se , então para qualquer outro teste tal que , . E também, implica em .
Seja
uma amostra aleatória da distribuição
e queremos testar
. Neste caso a razão de
verossimilhanças é dada por
Seja uma amostra aleatória da distribuição exponencial com parâmetro e queremos testar . A razão de verossimilhanças é dada por
Vimos que a escolha do nível de significância do teste é completamente arbitrária. Além disso, quando a distribuição da estatística de teste é discreta, como no exemplo da binomial, o nível escolhido pode nem mesmo ser atingido. Por outro lado, a decisão de aceitar ou rejeitar claramente depende desta escolha. Na maioria das aplicações práticas o valor escolhido é 0,05 ou 0,01 mas não há nada que justifique formalmente o uso destes valores em particular.
Um enfoque alternativo consiste em calcular o menor nível de significância para o qual é rejeitada, para o valor observado da estatística de teste. Esta quantidade é chamada nível critico, probabilidade de significância ou p-valor. A idéia é que, após calcular o -valor o pesquisador pode escolher o seu próprio nível de significância como sendo a probabilidade máxima tolerável para um erro tipo I. Em geral, se é uma estatística de teste e é rejeitada por exemplo para então o -valor é a probabilidade onde é o valor observado de .
No exemplo 2..1 suponha que o número observado de questões certas foi . Então o -valor será
No exemplo 2..2 suponha que o número observado de não defeituosos foi . Neste caso o -valor é dado por
Portanto, o -valor é a probabilidade de observar resultados
tão extremos quanto os obtidos se a hipótese nula for verdadeira. A
idéia é que se o -valor for grande ele fornece evidência de que
é verdadeira, enquanto que um
-valor pequeno indica que existe
evidência nos dados contra . As seguintes interpretações de
-valores () podem ser úteis,
Na Seção 2.2 foram definidos testes ótimos para testar hipóteses simples. Nesta seção os resultados serão generalizados para hipóteses compostas. Considere então um teste em que pode ser uma hipótese simples ou composta e é sempre uma hipótese composta.
Um teste de é dito ser uniformemente mais poderoso (UMP) de tamanho se e somente se
A família exponencial inclui muitas das distribuições de probabilidade mais comumente utilizadas em Estatística, tanto contínuas quanto discretas. Uma característica essencial desta família é que existe uma estatística suficiente com dimensão fixa.
A família de distribuições com função de (densidade) de probabilidade pertence à família exponencial a um parâmetro se podemos escrever
Se
é uma amostra aleatória de um membro da
família exponencial e for estritamente crescente em
então o teste UMP de nível para testar
rejeita se
. Se as hipóteses forem invertidas ou for
estritamente decrescente em então o teste UMP rejeita
se . Se ambas as condições ocorrerem o teste fica inalterado.
Um fato importante é que, em qualquer condição estes testes têm função
poder crescente em . Assim a constante acima é obtida de modo que
rejeitar , com igualdade no
caso contínuo.
Seja
uma amostra aleatória da distribuição
de Bernoulli com parâmetro e queremos testar
. Então, definindo
Seja uma amostra aleatória da distribuição exponencial com parâmetro e queremos testar . Definindo a densidade conjunta é
A propriedade que garante a existência de testes UMP na família exponencial pode ser extendida a famílias de distribuições com razão de verossimilhança monótona.
A família de distribuições com função de (densidade) de
probabilidade
é dita ter razão de verossimilhança
monótona se existe uma estatística tal que
, com
, a
razão
é uma função monótona em
.
Intuitivamente, quanto maior for a razão de verossimilhança mais plausível é o valor em relação a . Assim, se queremos testar e se a RV for uma função crescente de então é razoável rejeitar para valores grandes de . Pode-se mostrar que neste caso o teste UMP rejeita se . Analogamente, se as hipóteses forem invertidas ou se a RV for uma função decrescente de então o teste UMP rejeita se . Se ambas as condições ocorrerem o teste fica inalterado.
Em qualquer destas condições o fato importante é que a função poder é
sempre crescente em . Portanto, a constante acima é obtida
de modo que
rejeitar , com igualdade no
caso contínuo.
Seja uma amostra aleatória da distribuição de Bernoulli com parâmetro e queremos testar . Então, definindo temos que
Suponha agora que queremos testar hipóteses do tipo
Alternativamente poderiamos construir testes tais que as chances de rejeitar sejam maiores quando ela é falsa do que quando ela é verdadeira. Isto nos leva à definição de testes não viesados a seguir.
Um teste é dito ser não viesado para as
hipóteses
se
e
então
. Caso contrário o teste é dito viesado.
Ou seja, em testes não viesados a probabilidade de rejeitar quando ela é falsa é no mínimo tão grande quanto para verdadeira.
Podemos agora tentar construir testes para hipóteses bilaterais que sejam UMP dentro da classe de testes não viesados. Se a distribuição pertence à família exponencial, pode-se mostrar que se for uma função estritamente crescente em então o teste UMP não viesado de nível para aceita quando . As constantes e são obtidas de modo que .
Note que existe uma infinidade de valores de e satisfazendo a esta condição. Em muitas situações é conveniente tomar valores tais que
Outra característica dos testes bilaterias é que o -valor será a soma de duas probabilidades. Assim, após observar a amostra temos um valor da estatística e calculamos
Em muitas situações não é possível obter nem mesmo um teste não viesado. Um procedimento geral para testar é baseado na estatística da razão de máxima verossimilhança (RMV) dada por
Além do cálculo de valores máximos da função de verossimilhança existe outra dificuldade associada a estes testes que é a determinação da distribuição amostral de . Este problema será discutido quando falarmos de testes assintóticos na Seção 2.6.
Os resultados desenvolvidos nas seções anteriores serão aplicados ao modelo normal para testes sobre média e variância em problemas de uma ou mais amostras e em modelos de regressão linear. Nesta seção considere uma amostra aleatória tomada da distribuição .
Suponha que queremos testar
e inicialmente vamos
assumir que é conhecida. Neste caso,
No caso em que a variância populacional é também desconhecida o espaço dos parâmetro é e vamos obter o teste da RMV. Note que, como é uma hipótese simples então e não é difícil verificar que o valor de que maximiza a verossimilhança para fixo é . Portanto,
O teste desenvolvido acima é conhecido como teste e talvez um dos mais utilizados em Estatística. Pode-se mostrar que o teste é não viesado já que o valor mínimo da função poder ocorre em . Além disso, as propriedades do teste não são afetadas pelo valor de (parâmetro de distúrbio) já que foi substituido pelo seu estimador e é uma quantidade pivotal. O teste também é invariante a transformações lineares das observações.
Testes bilaterais do tipo para a variância podem ser construídos fazendo-se analogia com intervalos de confiança. Vimos na Seção 1.2.1 do Capítulo 1 que o intervalo de confiança de para é dado por
Para começar vamos assumir que temos duas amostras aleatórias
e
das distribuições
e
respectivamente e que as amostras são
independentes. Neste caso o vetor de parâmetros é
e em geral estaremos interessados em
testar as hipóteses
Se pudermos assumir que as variâncias populacionais são iguais, i.e. , o problema de construção do teste se torna relativamente simples usando a estatística da razão de máxima verossimilhança. Neste caso, como as amostras são independentes, podemos escrever a função de verossimilhança como
Quando as estimativas de máxima verossimilhança de , e são respectivamente , e
Substituindo estas expressões na razão de verossimilhanças pode-se mostrar que o teste da RMV rejeita se
O procedimento visto na seção anterior para variâncias iguais pode ser extendido facilmente para o caso de variâncias desconhecidas e desiguais, desde que a razão de variâncias seja conhecida. Suponha por exemplo que onde é uma constante positiva conhecida. Definindo-se
Finalmente, se mesmo a razão de variâncias for desconhecida então o problema de testar as hipóteses 2.1 torna-se bastante complexo. Este problema é conhecido na literatura como o problema de Behrens-Fisher. Vários procedimentos de teste já foram propostos e a maioria foi objeto de controvérsia em relação a sua utilidade e correção.
Em problemas com duas ou mais amostras de distribuições normais é
natural que se tenha
interesse em comparar as variâncias populacionais. Neste caso, a
distribuição é utilizada para testar as hipóteses associadas. No
caso de duas amostras suponha que queremos testar
Pode-se mostrar que não existe teste UMP para estas hipóteses e é prática comum utilizar-se o chamado teste . Este teste é não viesado e na verdade é UMP dentro da classe de testes não viesados. Usando a estatística da razão de máxima verossimilhança pode-se mostrar que o teste rejeita se
Vimos na Seção 1.2.4 que
No caso de testes bilaterais, i.e.
ou |
Vimos que a construção de um teste envolve a obtenção de constantes através da distribuição de probabilidades de uma estatística. Em muitas situações, particularmente para a razão de máxima verossimilhança, estas distribuições não podem ser determinadas de forma exata e precisamos recorrer a resultados aproximados. Nesta seção serão desenvolvidos testes baseados em distribuições assintóticas das estatísticas de teste envolvidas. Iremos nos concentrar em testes baseados na distribuição assintótica da razão de máxima verossimilhança, do estimador de máxima verossimilhança e da função escore.
Suponha que uma amostra aleatória é tomada de uma distribuição com parâmetro desconhecido e queremos testar . Expandindo em série de Taylor a função em torno do estimador de máxima verossimilhança obtemos
Mas função escore avaliada em é igual a zero por definição. Além disso, a razão de máxima verossimilhança neste caso é
Este resultado pode ser generalizado para o caso de um vetor de parâmetros de dimensão . Neste caso, a estatística tem distribuição assintótica .
Um caso de particular interesse em Estatística é quando os dados são tais que cada observação pode ser classificada de acordo com um número finito de possíveis categorias. Por isso, observações deste tipo são chamadas dados categóricos e estaremos interessados em fazer inferência sobre as probabilidades de cada categoria.
Suponha que uma população consiste de itens que podem ser
classificados em diferentes categorias. Seja a
probabilidade de que um item selecionado ao acaso pertença à categoria
,
. Assumimos também que
,
e
. Sejam agora os valores específicos
tais que
,
e
e queremos testar as hipóteses
Suponha agora que uma amostra aleatória de tamanho é tomada desta população e as hipóteses (2.2) serão testadas com base nesta amostra. Para isto vamos denotar o número amostral de observações na categoria , i.e. são inteiros não negativos tais que . Quando é verdadeira, o número esperado de observações do tipo é e a diferença entre o número observado e o número esperado tende a ser menor quando é verdadeira do que quando ela é falsa. Parece razoável então basear o teste nas magnitudes relativas destas diferenças. Neste caso, usando-se a função escore pode-se mostrar que o teste assintótico rejeita se
Uma observação de ordem prática é que as frequências esperadas não devem ser muito pequenas para que a distribuição seja uma boa aproximação da distribuição de . Especificamente, pode-se mostrar que a aproximação será muito boa se e apenas razoável .
Várias aplicações para dados categóricos e métodos não paramétricos que utilizam testes qui-quadrado podem ser vistas por exemplo em deg89.