A distribuição a posteriori de um parâmetro contém toda a
informação probabilística a respeito deste parâmetro e um gráfico da
sua função de densidade a posteriori é a melhor descrição do processo
de inferência. No entanto, algumas vezes é necessário resumir a
informação contida na posteriori através de alguns poucos valores
numéricos. O caso mais simples é a estimação pontual de
onde
se resume a distribuição a posteriori através de um único número,
. Como veremos a seguir, será mais fácil entender a
escolha de
no contexto de teoria da decisão.
Um problema de decisão fica completamente especificado pela descrição dos seguintes espaços:
Uma regra de decisão é uma função definida em
que
assume valores em
, i.e.
. A cada
decisão
e a cada possível valor do parâmetro
podemos associar uma perda
assumindo valores
positivos. Definimos assim uma função de perda.
O risco de uma regra de decisão, denotado por ,
é a perda esperada a posteriori, i.e.
.
Uma regra de decisão é ótima se tem risco
mínimo, i.e.
. Esta regra será
denominada regra de Bayes e seu risco, risco de Bayes.
Um laboratório farmaceutico deve decidir pelo lançamento
ou não de uma nova droga no mercado. É claro que o laboratório só
lançará a droga se achar que ela é eficiente mas isto é exatamente o
que é desconhecido. Podemos associar um parâmetro aos estados
da natureza: droga é eficiente (
), droga não é eficiente
(
) e as possíveis ações como lança a droga (
), não
lança a droga (
). Suponha que foi possível construir a seguinte tabela de
perdas levando em conta a eficiência da droga,
eficiente | não eficiente | |
lança | -500 | 600 |
não lança | 1500 | 100 |
Vale notar que estas perdas traduzem uma avaliação subjetiva em
relação à gravidade dos erros cometidos. Suponha agora que a incerteza
sobre os estados da natureza é descrita por
,
avaliada na distribuição atualizada de
(seja a
priori ou a posteriori). Note que, para
fixo,
é uma variável aleatória discreta assumindo apenas
dois valores com probabilidades
e
. Assim, usando a
definição de risco obtemos que
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
Seja agora uma amostra aleatória
tomada de uma
distribuição com função de (densidade) de probabilidade
aonde o valor do parâmetro
é desconhecido. Em um problema de
inferência como este o valor de
deve ser estimado a partir
dos valores observados na amostra.
Se
então é
razoável que os possíveis valores de um estimador
também devam pertencer ao espaço
. Além disso, um bom
estimador é aquele para o qual, com alta probabilidade, o erro
estará próximo de zero. Para cada possível valor
de
e cada possível estimativa
vamos
associar uma perda
de modo que quanto maior a distância
entre
e
maior o valor da perda. Neste caso, a perda
esperada a posteriori é dada por
Aqui vamos discutir apenas funções de perda simétricas, já que estas
são mais comumente utilizadas. Dentre estas a mais utilizada em
problemas de estimação é certamente a função de perda quadrática,
definida como
. Neste caso, pode-se mostrar
que o estimador de Bayes para o parâmetro
será a média de sua
distribuição atualizada.
Suponha que queremos estimar a proporção
de itens
defeituosos em um grande lote. Para isto será tomada uma amostra aleatória
de uma distribuição de Bernoulli com parâmetro
. Usando uma priori conjugada Beta(
) sabemos que
após observar a amostra a distribuição a posteriori é
Beta(
) onde
. A média desta
distribuição Beta é dada por
e portanto
o estimador de Bayes de
usando perda quadrática é
A perda quadrática é as vezes criticada por penalizar demais o erro de
estimação. A função de perda absoluta, definida como
, introduz punições que crescem linearmente
com o erro de estimação e pode-se mostrar que o estimador de Bayes
associado é a mediana da distribuição atualizada de
.
Para reduzir ainda mais o efeito de erros de estimação grandes podemos considerar funções que associam uma perda fixa a um erro cometido, não importando sua magnitude. Uma tal função de perda, denominada perda 0-1, é definida como
Se
é uma amostra aleatória da
com
conhecido e usarmos a priori conjugada, i.e.
então a posteriori também será normal e neste caso
média, mediana e moda coincidem. Portanto, o estimador de Bayes de
é dado por
No exemplo 3..2 suponha que foram observados 100
itens dos quais 10 eram defeituosos. Usando perda quadrática a
estimativa de Bayes de é
Voltamos a enfatizar que a forma mais adequada de expressar a informação que se tem sobre um parâmetro é através de sua distribuição a posteriori. A principal restrição da estimação pontual é que quando estimamos um parâmetro através de um único valor numérico toda a informação presente na distribuição a posteriori é resumida através deste número. É importante também associar alguma informação sobre o quão precisa é a especificação deste número. Para os estimadores vistos aqui as medidas de incerteza mais usuais são a variância ou o coeficiente de variação para a média a posteriori, a medida de informação observada de Fisher para a moda a posteriori, e a distância entre quartis para a mediana a posteriori.
Nesta seção vamos introduzir um compromisso entre o uso da própria distribuição a posteriori e uma estimativa pontual. Será discutido o conceito de intervalo de credibilidade (ou intervalo de confiança Bayesiano) baseado no distribuição a posteriori.
C é um intervalo de credibilidade de 100(1-)%,
ou nível de credibilidade (ou confiança)
, para
se
.
Note que a definição expressa de forma probabilística a pertinência ou
não de ao intervalo. Assim, quanto menor for o tamanho do
intervalo mais concentrada é a distribuição do parâmetro, ou seja o
tamanho do intervalo informa sobre a dispersão de
. Além
disso, a exigência de que a probabilidade acima possa ser maior do
que o nível de confiança é essencialmente técnica pois queremos que o
intervalo seja o menor possível, o que em geral implica em usar uma
igualdade. No entanto, a desigualdade será útil se
tiver uma
distribuição discreta onde nem sempre é possível satisfazer a
igualdade.
Outro fato importante é que os intervalos de credibilidade são
invariantes a transformações 1 a 1,
. Ou seja, se
é um intervalo de credibilidade 100(1-
)% para
então
é um intervalo de credibilidade 100(1-
)%
para
. Note que esta propriedade também vale para
intervalos de confiança na inferência clássica.
É possível construir uma infinidade de intervalos usando a definição
acima mas estamos interessados apenas naquele com o menor
comprimento possível. Pode-se mostrar que intervalos de comprimento
mínimo são obtidos tomando-se os valores de com maior
densidade a posteriori, e esta idéia é expressa matematicamente na
definição abaixo.
Um intervalo de credibilidade de 100(1-
)%
para
é de máxima densidade a posteriori (MDP) se
onde
é a maior constante tal que
.
Usando esta definição, todos os pontos dentro do intervalo MDP terão
densidade maior do que qualquer ponto fora do intervalo. Além disso,
no caso de distribuições com duas caudas, e.g. normal, de Student,
o intervalo MDP é obtido de modo que as caudas tenham a mesma
probabilidade.
Um problema com os intervalos MDP é que eles não são invariantes a transformações 1 a 1, a não ser para transformações lineares. O mesmo problema ocorre com intervalos de comprimento mínimo na inferência clássica.
Os resultados desenvolvidos nos capítulos anteriores serão aplicados ao modelo normal para estimação da média e variância em problemas de uma ou mais amostras e em modelos de regressão linear. A análise será feita com priori conjugada e priori não informativa quando serão apontadas as semelhanças com a análise clássica. Assim como nos capítulos anteriores a abordagem aqui é introdutória. Um tratamento mais completo do enfoque Bayesiano em modelos lineares pode ser encontrado em Broemeling (1985) e Box e Tiao (1992).
Nesta seção considere uma amostra aleatória
tomada da distribuição
.
Se é conhecido e a priori de
é
então,
pelo Teorema 1.1, a posteriori de
é
.
Intervalos de confiança Bayesianos para
podem então ser construídos usando o fato de que
A priori não informativa pode ser obtida fazendo-se a variância da
priori tender a infinito, i.e.
. Neste caso, é fácil verificar que
e
, i.e. a média e a precisão da
posteriori convergem para a média e a precisão amostrais. Média, moda e
mediana a posteriori coincidem então com a estimativa clássica de máxima
verossimilhança,
. O intervalo de confiança
Bayesiano 100(1-
)% é dado por
Neste caso, usando a priori conjugada
Normal-Gama vista no Capítulo 2 temos que a
distribuição a posteriori marginal de é dada por
No caso da variância populacional intervalos de confiança
podem ser obtidos usando os
percentis da distribuição qui-quadrado uma vez que a distribuição
a posteriori de
é tal que
. Denotando por
Um caso particular é quanto utilizamos uma priori não
informativa. Vimos na Seção 2.4 que a priori não
informativa de locação e escala é
,
portanto pela propriedade de invariância segue que
a priori não informativa de
é obtida fazendo-se
. Note que este é um caso particular (degenerado) da priori conjugada
natural com
,
e
. Neste caso a
distribuição a posteriori
marginal de
fica
Mais uma vez média, moda e mediana a posteriori de coincidem com
a média amostral
que é a estimativa de máxima
verossimilhança. Como
segue que o intervalo de confiança 100(1-
)% para
de MDP
é
Para fazer inferências sobre temos que
Mais uma vez vale enfatizar que esta coincidência com as estimativas clássicas é apenas numérica uma vez que as interpretações dos intervalos diferem radicalmente.
Nesta seção vamos assumir que
e
são
amostras aleatórias das distribuições
e
respectivamente e que as amostras são
independentes.
Para começar vamos assumir que as variâncias e
são
conhecidas. Neste caso, a função de verossimilhança é dada por
Se usarmos a classe de prioris conjugadas
então as posterioris independentes serão
onde
Em geral estaremos interessados em comparar as médias populacionais,
i.e queremos estimar
. Neste caso, a
posteriori de
é facilmente obtida, devido à independência, como
No caso de variâncias populacionais desconhecidas porém iguais,
temos que
. A priori conjugada pode ser
construída em duas etapas. No primeiro estágio, assumimos que, dado
,
e
são a priori condicionalmente
independentes, e especificamos
![]() |
![]() |
![]() |
|
![]() |
![]() |
Além disso, também não é difícil obter a priori condicional de
, dado
, como
Podemos mais uma vez obter a posteriori conjunta em duas etapas já que
e
também serão condicionalmente independentes a
posteriori, dado
. Assim, no primeiro estágio usando os
resultados obtidos anteriormente para uma amostra segue que
Assim, média, moda e mediana a posteriori de coincidem e a
estimativa pontual é
. Também intervalos de
credibilidade de MDP podem ser obtidos usando os percentis da
distribuição
de Student. Para a variância populacional a estimativa
pontual usual é
e intervalos podem ser construídos
usando os percentis da distribuição qui-quadrado já que
Vejamos agora como fica a análise usando priori não informativa. Neste
caso,
e isto equivale a um
caso particular (degenerado) da priori conjugada com
,
e
. Assim, temos que
,
,
e
e a estimativa pontual concide com a estimativa de máxima
verossimilhança
. O
intervalo de
de MDP para
tem limites
O intervalo de
para
é obtido de maneira análoga
ao caso de uma amostra usando a distribuição qui-quadrado, agora com
graus de liberdade, i.e.
Até agora assumimos que as variâncias populacionais desconhecidas eram
iguais (ou pelo menos aproximadamente iguais). Na inferência clássica
a violação desta
suposição leva a problemas teóricos e práticos uma vez que não é
trivial encontrar uma quantidade pivotal para com distribuição
conhecida ou tabelada. Na verdade, se existem grandes diferenças de
variabilidade
entre as duas populações pode ser mais apropriado analisar
conjuntamente as consequências das diferenças entre as médias e as
variâncias. Assim, caso o pesquisador tenha interesse no parâmetro
deve levar em conta os problemas de ordem teóricas
introduzidos por uma diferença substancial entre
e
.
Do ponto de vista Bayesiano o que precisamos fazer é combinar informação a priori com a verossimilhança e basear a estimação na distribuição a posteriori. A função de verossimilhança agora pode ser fatorada como
Outra situação de interesse é a comparação das duas variâncias
populacionais. Neste caso, faz mais sentido utilizar a razão de
variâncias ao invés da diferença já que elas medem a escala de uma
distribuição e são sempre positivas. Neste caso temos que obter a
distribuição a posteriori de
. Usando a
independência a posteriori de
e
e após algum
algebrismo pode-se mostrar que
Embora sua função de distribuição não possa ser obtida analiticamente os valores estão tabelados em muitos livros de estatística e também podem ser obtidos na maioria dos pacotes computacionais. Os percentis podem então ser utilizados na construção de intervalos de credibilidade para a razão de variâncias.
Uma propriedade bastante útil para calcular probabilidade com a
distribuição vem do fato de que se
então
por simples inversão na razão de
distribuições qui-quadrado independentes. Assim, denotando os quantis
e
da distribuição
por
e
respectivamente segue que
Finalmente, a análise usando priori não informativa pode ser feita
para
e será
deixada como exercício.