A principal restrição da estimação pontual é que quando estimamos um parâmetro através de um único valor numérico toda a informação presente nos dados é resumida através deste número. É importante encontrar também um intervalo de valores plausíveis para o parâmetro.
A idéia é construir um intervalo em torno da estimativa pontual de modo que ele tenha uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. Tipicamente as distribuições amostrais de estimadores dos parâmetros desconhecidos serão utilizadas. Antes de descrever o procedimento geral veremos um exemplo simples de construção do intervalo de confiança.
Seja uma amostra aleatória da distribuição , com conhecido. Para fazer inferências sobre nos baseamos na média amostral e sabemos que
Esta última igualdade pode dar margem a interpretações errôneas, o que aliás acontece com bastante frequência. O parâmetro é desconhecido mas fixo e portanto não é passível de descrição probabilística, ou seja não se trata de um intervalo de probabilidade para . Na verdade os limites do intervalo é que são variáveis aleatórias e após a amostra ser observada dizemos que
Vale notar também que, para um dado valor de , é possível construir muitos intervalos de confiança diferentes para . Na verdade, quaisquer constantes e tais que podem ser usadas para construir um intervalo com limites
O procedimento geral para construção de intervalos de confiança consiste nos seguintes passos,
A exigência de que a probabilidade no item 2 acima possa ser maior do que o nível de confiança é essencialmente técnica pois queremos que o intervalo seja o menor possível, o que em geral implica em usar uma igualdade. A desigualdade será útil principalmente no caso de distribuições discretas onde nem sempre é possível satisfazer a igualdade.
Note que a variável aleatória , comumente denominada quantidade pivotal ou pivot, é fundamental para o funcionamento do método. Idealmente ela deve depender da amostra através de estatísticas suficientes minimais e ter distribuição conhecida.
É importante notar também que este intervalo não pode ser interpretado como um intervalo de probabilidade para já que a aleatoriedade presente é devida a amostra . Ou seja, o procedimento leva a construção de um intervalo probabilístico para e não para .
Tecnicamente, dizemos que de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Por exemplo se então, em média, somente 5 a cada 100 intervalos não conterão . A probabilidade é denominada nível de confiança e sua escolha depende da precisão com que queremos estimar o parâmetro, sendo que 0,90, 0,95 e 0,99 são os valores mais comuns na prática.
Nesta seção serão discutidos os casos em que os dados provém de uma distribuição normal. Inicialmente veremos o caso em que temos uma única amostra de uma distribuição normal e queremos estimar sua média e sua variância. Na Seção 1.2.2 estudaremos o caso de duas amostras tomadas de distribuições normais independentes.
No exemplo 1..1, se for desconhecido não podemos usar a mesma quantidade pivotal já que ela depende de . Ou seja, precisamos obter uma outra quantidade pivotal que depende apenas de e de e com uma distribuição que seja conhecida e não dependa de nenhum parâmetro desconhecido. No modelo normal isto será possível usando os resultados a seguir.
Seja uma amostra aleatória da distribuição e sejam e a média e a variância amostrais. Então, condicionado em e , e são independentes com distribuições amostrais
Se e e se e são independentes então
Seja uma amostra aleatória da distribuição e sejam e a média e a variância amostrais. Então, condicionado em e , tem distribuição amostral
Estes resultados nos permitem definir quantidades pivotais para construção de intervalos de confiança para e . No caso da média , o valor desconhecido de é substituido pelo seu estimador levando a uma quantidade pivotal com distribuição com graus de liberdade. Assim, podemos obter o percentil tal que
Finalmente, após observar a amostra substituimos as estimativas e dizemos que
Para obter estimativas da variância populacional usamos uma quantidade pivotal com distribuição qui-quadrado com graus de liberdade. Devemos então obter os percentis e desta distribuição tais que
Nesta seção vamos assumir que e são amostras aleatórias das distribuições e respectivamente e que as amostras são independentes.
Podemos comparar as médias populacionais estimando a diferença . A estimação é baseada na diferença entre médias amostrais, i.e. que é o estimador de máxima verossimilhança de . Se as variâncias populacionais forem conhecidas então a distribuição amostral é dada por
No caso de variâncias populacionais desconhecidas porém iguais, i.e. podemos combinar os duas variâncias amostrais para formar uma estimativa combinada da variância. Atribuímos mais peso às amostras maiores e esta variância combinada é dada por
Do exposto acima, um intervalo de confiança para a diferença entre médias assumindo desvios padrão iguais pode ser construído usando-se a quantidade pivotal
Analogamente ao caso de uma amostra, o intervalo de confiança para é construído usando-se a quantidade pivotal
Até agora assumimos que as variâncias populacionais desconhecidas eram iguais (ou pelo menos aproximadamente iguais). A violação desta suposição leva a problemas teóricos e práticos uma vez que não é trivial encontrar uma quantidade pivotal para com distribuição conhecida. Na verdade, se existem grandes diferenças de variabilidade entre as duas populações pode ser mais apropriado analisar conjuntamente as consequências das diferenças entre as médias e as variâncias. Assim, caso o pesquisador tenha interesse no parâmetro deve levar em conta os problemas de ordem teóricas introduzidos por uma diferença substancial entre e .
A literatura estatística apresenta vários métodos para resolver este problema mas nenhum deles é completamente satisfatório. Um procedimento possível consiste em utilizar a estatística
Outra situação de interesse é a comparação das duas variâncias populacionais. Neste caso, faz mais sentido utilizar a razão de variâncias ao invés da diferença já que elas medem a escala de uma distribuição e são sempre positivas. Para obter a distribuição amostral apropriada usaremos o teorema a seguir.
Sejam as variáveis aleatórias e independentes com distribuições qui-quadrado com e graus de liberdade respectivamente. Então a variável aleatória dada por
Usaremos a notação e dos teoremas 1.1 e 1.2 não é difícil mostrar que
Embora sua função de distribuição não possa ser obtida analiticamente os valores estão tabelados em muitos livros de estatística e também podem ser obtidos na maioria dos pacotes computacionais. Os percentis podem então ser utilizados na construção de intervalos de confiança para a razão de variâncias.
Uma propriedade bastante útil para calcular probabilidade com a distribuição vem do fato de que se então por simples inversão na razão de distribuições qui-quadrado independentes. Assim, denotando os quantis e da distribuição por e respectivamente segue que
Seja uma amostra aleatória de uma distribuição de Bernoulli com parâmetro . Assim,
Pelo teorema central do limite, para grande e não muito próximo de 0 ou 1, a distribuição de será aproximadamente normal com média e um desvio padrão dado por
No entanto, se o verdadeiro valor de estiver afastado do seu valor máximo e estiver próximo de 0 ou de 1 então este intervalo tem amplitude desnecessariamente grande porque substituimos pelo seu valor máximo. Um enfoque mais otimista consiste em substituir pela sua estimativa de máxima verossimilhança, i.e. a proporção amostral de sucessos e utilizar o intervalo
Note que, para e fixos a amplitude do intervalo conservativo será a mesma para todas as possíveis amostras de tamanho . Por outro lado, usando-se esta última expressão o intervalo terá amplitude que varia de amostra para amostra.
Utilizando os conceitos do método da quantidade pivotal e a propriedade de normalidade assintótica dos estimadores de máxima verossimilhança podemos construir intervalos de confiança para . Antes porém precisamos da definição da medida de informação de Fisher.
Considere uma única observação com função de (densidade) de probabilidade . A medida de informação esperada de Fisher de através de é definida como
Note que o conceito de informação aqui está sendo associado a uma espécie de curvatura média da função de verossimilhança no sentido de que quanto maior a curvatura mais precisa é a informação contida na verossimilhança, ou equivalentemente maior o valor de . Em geral espera-se que a curvatura seja negativa e por isso seu valor é tomado com sinal trocado. Note também que a esperança matemática é tomada em relação à distribuição amostral .
Podemos considerar então uma medida de informação global enquanto que uma medida de informação local é obtida quando não se toma o valor esperado na definição acima. A medida de informação observada de Fisher fica então definida como
Seja uma coleção de variáveis aleatórias independentes com distribuições , e sejam e as medidas de informação de obtidas através de e de , respectivamente. Então,
O lema nos diz então que a informação total contida em observações independentes é igual a soma das informações individuais. Um caso particular importante é quando as observações são também identicamente distribuidas já que neste caso é constante e assim a informação total é simplesmente .
Outra estatística importante no estudo da função de verossimilhança e que será útil na construção de intervalos de confiança assintóticos é a função escore. A função escore de denotada por é dada por
Além disso, pode-se mostrar que o valor esperado da função escore é zero e sua variância é dada por .
Vimos em estimação pontual que, para grandes amostras, o estimador de máxima verossimilhança para um parâmetro tem distribuição aproximadamente normal com média sob condições de regularidade gerais. Assim, mesmo que seja viesado para fixo ele será assintoticamente não viesado. A variância assintótica é dada por . Ou seja, para grande tem distribuição aproximadamente e podemos construir intervalos de confiança aproximados para . Neste caso, pode ser tratado como uma quantidade pivotal aproximada e se for possível isolar na desigualdade
Seja uma amostra aleatória da distribuição exponencial com parâmetro . A função de densidade conjunta é dada por
Um fato importante é que, em geral, na distribuição assintótica normal do estimador de máxima verossimilhança a sua variância pode ser substituida pelo seu estimador sem afetar muito a acurácia da aproximação. Este fato, que não será provado aqui, simplifica bastante a conversão das desigualdades para obtenção de intervalos de confiança aproximados. Assim,
Em algumas situações não se tem uma forma explícita para o estimador de máxima verossimilhança e neste caso a função escore será particularmente útil. Lembrando que a função escore de tem média zero e variância igual a então temos pelo teorema central do limite que converge em distribuição para uma . Podemos usar este resultado para fazer inferência aproximada sobre e assim o intervalo de confiança aproximado de é obtido fazendo-se
Finalmente, vale ressaltar que todos os resultados desta seção podem ser extendidos para o caso de um vetor paramétrico . Neste caso, a distribuição assintótica do estimador de máxima verossimilhança será normal multivariada com vetor de médias e matriz de variância-covariância igual a onde é a matriz de informação de Fisher.