Exemplo 1: Teste diagnóstico de uma doença rara

Considere o problema do teste diagnóstico de uma doença rara, que afeta 2% da população. Um teste diagnóstico para a doença tem sensibilidade de 90% e especificidade de 80%. Ou seja, se uma pessoa tem a doença, o teste dá positivo com probabilidade 90%, e se a pessoa não tem a doença, o teste dá negativo com probabilidade 80%. O objetivo é determinar a probabilidade de uma pessoa ter ou não a doença dado que o teste deu positivo.

Definindo notação:

\(D\) : evento “a pessoa tem a doença”
\(T\) : evento “o teste deu positivo”
\(P(D) = 0.02\) : prevalência da doença na população
\(P(T|D) = 0.9\) : sensibilidade do teste
\(P(T|D^c) = 0.2\) : taxa de falso positivo (1 - especificidade)

Redefinindo notação:

parâmetro \(\theta \in \{0, 1\}\) \[ \theta = \begin{cases} 0 & \text{se não tem a doença}\\ 1 & \text{se tem a doença} \end{cases} \]
variável observada \(Y \in \{0, 1\}\) \[ Y = \begin{cases} 0 & \text{se o teste é negativo}\\ 1 & \text{se o teste é positivo} \end{cases} \]
\(P(\theta = 0) = 0.98\) e \(P(\theta = 1) = 0.02\)
\(P(Y = 0 | \theta = 0) = 0.8\) e \(P(Y = 1 | \theta = 1) = 0.9\)
\(P(Y = 0 | \theta = 1) = 0.1\) e \(P(Y = 1 | \theta = 0) = 0.2\)

Priori: \(P(\theta)\)
Para teste POSITIVO:
Verossimilhança: \(P(Y = 1 | \theta)\)

ex01.1 <- tibble::tibble(
  theta = c(0,1),
  priori = c(0.98, 0.02),
  vero = c(0.20, 0.90),
  produto = priori * vero,
  posteriori = produto/sum(produto)
)
knitr::kable(ex01.1)

theta	priori	vero	produto	posteriori
0	0.98	0.2	0.196	0.9158879
1	0.02	0.9	0.018	0.0841121

Para teste NEGATIVO:
Verossimilhança: \(P(Y = 0 | \theta)\)

ex01.2 <- tibble::tibble(
  theta = c(0,1),
  priori = c(0.98, 0.02),
  vero = c(0.80, 0.10),
  produto = priori * vero,
  posteriori = produto / sum(produto)
)
knitr::kable(ex01.1)

theta	priori	vero	produto	posteriori
0	0.98	0.2	0.196	0.9158879
1	0.02	0.9	0.018	0.0841121

Agora suponha que a pessoa fez o teste duas vezes, e ambos os testes deram positivo. Qual as probabilidade de a pessoa ter ou não a doença dado que ambos os testes deram positivo?

Priori: \(P(\theta)\)
Verossimilhança: \(P(Y_1 = 1, Y_2 = 1 | \theta)\)
Assumindo que os testes são independentes, temos \[P(Y_1 = 1, Y_2 = 1 | \theta) = P(Y_1 = 1 | \theta) \cdot P(Y_2 = 1 | \theta)\]

ex01.3 <- tibble::tibble(
  theta = c(0,1),
  priori = c(0.98, 0.02),
  vero1 = c(0.20, 0.90),
  vero2 = c(0.20, 0.90),
  produto = priori * vero1 * vero2,
  posteriori = produto / sum(produto)
)
knitr::kable(ex01.3)

theta	priori	vero1	vero2	produto	posteriori
0	0.98	0.2	0.2	0.0392	0.7075812
1	0.02	0.9	0.9	0.0162	0.2924188

Agora suponha que a pessoa fez o teste três vezes, e os resultados foram: positivo,negativo e positivo. Qual as probabilidade de a pessoa ter ou não a doença dado que os testes deram esses resultados?

Priori: \(P(\theta)\)
Verossimilhança: \(P(Y_1 = 1, Y_2 = 0, Y_3 = 1 | \theta)\)
Assumindo independência, temos \[P(Y_1 = 1, Y_2 = 0, Y_3 = 1 | \theta) = P(Y_1 = 1 | \theta) \cdot P(Y_2 = 0 | \theta) \cdot P(Y_3 = 1 | \theta)\]

ex01.4 <- tibble::tibble(
  theta = c(0,1),
  priori = c(0.98, 0.02),
  vero1 = c(0.20, 0.90),
  vero2 = c(0.80, 0.10),
  vero3 = c(0.20, 0.90),
  produto = priori * vero1 * vero2 * vero3,
  posteriori = produto / sum(produto)
)
knitr::kable(ex01.4)

theta	priori	vero1	vero2	vero3	produto	posteriori
0	0.98	0.2	0.8	0.2	0.03136	0.9508793
1	0.02	0.9	0.1	0.9	0.00162	0.0491207

Exemplo 2: Teste de avaliação de conhecimento

Estima-se que um estudante tem uma chance de 40% de dominar um determinado assunto. O estudante faz uma questão de múltipla escolha (com cinco alternativas) para avaliar seu conhecimento. O estudante tem 85% de chance de acertar a questão se domina o assunto.

Avalie a probabilidade de o estudante dominar o assunto, dado que ele acertou a questão.
Avalie a probabilidade de o estudante dominar o assunto, dado que ele acertou a questão.
Suponha que o estudante faz uma segunda questão com probabilidade de acerto de 70% se domina o assunto. Se o estudante acerta ambas, qual a probabilidade de ele dominar ou não o assunto?

Exemplo 3: Monty Hall

Notação:

\(\theta \in \{1, 2, 3\}\) : porta onde está o prêmio
\(Y \in \{1, 2, 3\}\) : porta revelada

Vamos chamar de Porta 1 a escolhida pelo jogador, de Porta 2 a revelada e Porta 3 a restante. A revelada é escolhida com probabilidade \(p\) se houver opção. Vamos considerar que \(p = 1/2\).

p <- 0.5 
ex03.1 <- tibble::tibble(
  theta = c(1,2,3),  
  priori = c(1/3, 1/3, 1/3),          ## P(θ)
  vero = c(p, 0, 1),                  ## P(Y=2|θ)
  produto = priori * vero,
  posteriori = produto / sum(produto) ## P(θ|Y=2)
)
knitr::kable(ex03.1)

theta	priori	vero	produto	posteriori
1	0.3333333	0.5	0.1666667	0.3333333
2	0.3333333	0.0	0.0000000	0.0000000
3	0.3333333	1.0	0.3333333	0.6666667

Exemplo 4: Urna com bola branca e pretas adicionadas

Seja uma urna com uma bola branca. Bola(s) pretas são adicionadas à urna em quantidade definida pelo resultado do lançamento de um dado com resultado não revelado. Retira-se uma bola da urna e observa-se que ela é preta.

Qual a distribuição de probabilidades da face do dado? (use priori uniforme)
Repita anterior para outra opção de priori com faces de 1 a 6 proporcionais a 3,3,2,2,1,1, respectivamente.
Suponha que uma segunda bola é retirada e também é preta. Qual a distribuição de probabilidades da face do dado? (sem reposição da primeira bola, com priori inicial uniforme)
idem anterior com priori não uniforme.

Estude outras situações:
1. a bola branca é retirada,
2. há mais de uma bola branca na urna,
3. outros “números de faces” do dado.

Exemplo 5: Proporção de canhotos

Suponha que a proporção de canhotos na população é desconhecida e queremos estimá-la considerando apenas três possíveis valores: 0.05, 0.10 e 0.15 com probabilidades 0.60, 0.30 e 0.10, respectivamente.

Se em um grupo de 27 pessoas, 5 são canhotos, qual a distribuição a posteriori da proporção de canhotos na população?
Suponha que se verifica também um segundo grupo de 40 pessoas, 6 são canhotos. Qual a nova distribuição a posteriori da proporção de canhotos na população?
Verifique que considerando um só grupo de 27+40=67 pessoas com 5+6 = 11 canhotos, a distribuição a posteriori é a mesma.

Considere agora, no contexto da questão anterior, valores de \(\theta\) entre 1 e 30% (valores percentuais inteiros) e priori proporcional a 5, 3 e 1 para \(\theta \in \{1, 2, \ldots 10\}\), \(\theta \in \{11, 12, \ldots 20\}\) e \(\theta \in \{21, 22, \ldots 30\}\), respectivamente.

Exemplo 6: Dados com distribuição Poisson

Suponha que o número de ocorrências de um determinado evento em um intervalo de tempo segue uma distribuição de Poisson com parâmetro \(\theta\). Considera-se dez possíveis valores para \(\theta\): \(1, 2, 3, \ldots 10.\)

Supondo com probabilidades iguais para o valor do parâmetro \(\theta\):

se em um intervalo de tempo foram observadas 8 ocorrências, qual a distribuição posteriori de \(\theta\)?
se em um segundo intervalo de tempo foram observadas 6 ocorrências, qual a nova distribuição posteriori de \(\theta\) considerando a priori inicial?
Verifique que considerando um só intervalo de tempo com 8+6=14 ocorrências, a distribuição posteriori é a mesma.

Repita itens anteriores considerando agora probabilidades para \(\theta\) proporcionais a \(0.25 \exp\{-0.25 \theta\}\).
Proponha outra priori para \(\theta\) e repita os itens anteriores.
Considere agora que \(\theta\) pode assumir qualquer valor positivo. Considere como priori valores em uma sequência \(\{0.5, 1.0, 1.5, 2.0, \ldots 20\}\) proporcionais aos de uma distribuição gama com parâmetros \(a=3\) e \(b=1\). Repita os itens anteriores.

CE-315: Teorema de Bayes