Última atualização: 03 de julho, 2025 às 12:45.

Os tópicos a seguir são distribuídos entre grupos de participantes do curso.
Os trabalhos devem ser entregues em relatórios no formato rmarkdown (ou análogo) e serem reprodutíveis.
Os relatórios devem conter pelo menos três sessões: 

  1. introdução com a descrição e fundamentos para resolução,
  2. sessão com os códigos e experimentos/simulações computacionais, 
  3. discussão e conclusões.

Quantos peixes em um aquário?

(Janete, Camilo, Gabrielly, Marcio)

Este programa é uma ilustração do chamado método de captura e recaptura que contém várias extensões e aplicações.

Imagine um aquário com muitos peixes e deseja-se estimar quantos (\(N\)) peixes há no aquário. Inicialmente são capturados \(K\) peixes do aquário que são identificados (marcados) e retornados ao aquário. Após algum tempo para que os peixes se misturem é tomada uma nova amostra de \(n\) peixes e anota-se o número (\(y\)) de animais marcados. Uma estimativa para o número de peixes do aquário é: \[\hat{N} = K \frac{n}{y}. \]

Note que podem ocorrer problemas na estimação, em particular se o número de animais recapturados é zero.

Considere agora um segundo estimador (estimador de Chapman): \[\tilde{N} = \left\lfloor \frac{(K+1) (n+1)}{y+1} - 1 \right\rfloor. \]

OBS: As expressões das variâncias dos estimadores são: \[ \begin{align*} {\rm Var}(\hat{N}) &= \frac{K n (K-y) (n-y)}{y^3} \hspace{1cm} \mbox{ou} \hspace{1cm} {\rm Var}(\hat{N})= \frac{K^2 n (n-y)}{y^3} \\ \mbox{e} \\ {\rm Var}(\tilde{N}) &= \frac{(K+1)(n+1)(K-y)(n-y)}{(y+1)^2(y+2)} \end{align*} \]

Intervalos de confiança podem ser obtidos de diversas formas.
Intervalos assintóticos podem ser calculados com base na distribuição normal usando os erros padrões dos estimadores.
Um outro intervalo encontrado na literatura é dado por: \[\begin{align*} & n + k - y - 0.5 + \frac{(n-y+0.5)(K - y + 0.5)}{y + 0.5} \exp\left\{\pm z_{\alpha/2} \hat{\sigma}_{0.5}\right\} \\ \hat{\sigma}_{0.5} &= \sqrt{\frac{1}{y+0.5}+\frac{1}{n-y+0.5}+\frac{1}{K-y+0.5}+\frac{y+0.5}{(K-y+0.5)(n-y+0.5)}} \\ \end{align*}\]

Além destes, intervalos também podem ser obtidos com algorítmos bootstrap, mas isto será tratado posteriormente.

Conduzir um estudo de simulação para investigar o comportamento dos estimadores. Suponha um tamanho de população conhecido \(N = 400\) e vamos fixar também \(K = 80\), \(n=60\), Gerar 10000 vezes o valor de \(y\) e obter \(\hat{N}\) em cada vez. Explore as propriedades dos estimadores a partir das estimativas obtidas. Experimente com outros valores de \(N\).

Compare os estimadores e discuta.

Extremos

(Ellen, Leonardo F. e Mariana)

(Baseado em (“Teaching Bits: A Resource for Teachers of Statistics” 1994)) Seja uma amostra aleatória \((y_1, y_2, \ldots, y_n)\) de uma v.a. \(Y\). Sabemos que para amostras suficientemente grandes e algumas condiçṍes de regularidade a distribuição amostral da média \(\overline{Y}\) converge para uma distribuição normal, indiferentemente da distribuição \(F_Y(y)\) da variável. Mas o que acontece com o máximo \(Y_{M} = {\rm max}(y_1, y_2, y_n)\)? Estudar o comportamento do máximo pode ser útil em diversos contextos como ambientais (precipitação, temperatura, poluição, ), financeiros, etc. O tema é tratado na teoria de valores extremos. Aqui vamos focar apenas em fazer algumas explorações computacionais.

Seja \(Y \sim {\rm N}(0, 1)\).

  1. Tome diversas amostras para cada tamanhos \(n=10\), \(n=100\), \(n=1000\) e \(n=10000\) e verifique o comportamento das distribuições amostrais. As distribuições amostrais parecem normais? Se aproximam da normalidade para valores crescentes de \(n\)? Discuta os resultados.
  2. Investigue os comportamentos das distribuições amostrais utilizando qq-plots (qq-norm). Para isto voce pode usar função pronta do R (qqnorm(), por exemplo) ou se basear no seguinte. Sejam as estimativas das diversas amostras para um determinado tamanho ordenadas em \((y_{(1)}, \ldots, y_{(n)})\). Os quantis esperados correspondentes a cada dado são obtidos por \({\rm F}^{-1}((i - 0.5)/n)\) em que \(F\) é a distribuição (acumulada) contra a qual deseja-se confrontar os dados. Note que o intercepto e inclinação do gráfico de quantis fornece estimativas da média e desvio padrão.

Nos itens anteriores deve-se obter que a distribuição amostral de \(Y_M\) não é normal. Uma aproximação melhor é dada pela distribuição de Gumbel (também conhecida como distribuição de valor extremo generalizada do tipo I) que tem expressão da acumulada dada por \[F_G(t; a,b) = \exp\left\{-\exp\left(-\frac{t - \mu}{\beta}\right)\right\},\] em que \(\mu\) e \(\beta\) são parâmetros de locação e escala análogos à média e desvio padrão da normal. Avalie esta opção distribuição amostral. No gráfico de quantis utilize \({\rm F_G}^{-1}(i/(n+1)) = -\log(-\log(i/(n+1)))\). Note que o intercepto e inclinação do gráfico de quantis fornecem estimativas dos parâmetros \(\mu\) e \(\beta\) de forma análoga ao caso normal.

Ilustre com simulações que a distribuição de Gumbel se aproxima melhor como distribuição amostral, embora ainda possa ter problemas para captar valores extremos para grandes tamanhos de amostra.

Explore ainda:

Erros tipo I e II em testes de normalidade

(Jonatas, Leonardo B. e Rodrigo)

Diversos procedimentos de estatística se baseiam no pressuposto de normalidade. Por vezes este pressuposto é verificado por testes de normalidade dos dados ou resíduos de modelos ajustados. É de interesse conhecer características de sensibilidade a desvios de normalidade, robustez, dentre outras. Vamos considerar aqui o cenário mais simples, de testar normalidade de dados gerados por diferentes distribuições e avaliar os erros tipo I e II de testes de normalidade. Considere ao menos dois testes de normalidade, diferentes distribuições geradoras dos dados e tamanhos de amostra.

Erros tipo I e II na comparação de duas amostras

(Camilla, Kamila e Maria Eduarda)

Tome diferentes testes para comparação de duas amostras independentes, por exemplo, testes-t (variâncias iguais ou diferentes) uma alternativa não paramétrica e teste aleatorizado. Considere ao menos três cenários para distribuição de dados, por exemplo, provenientes de uma distribuição normal, \(t\) com 3 g.l. e de uma Gama de uma distribuição Poisson.

Verifique, por simulação, as taxas de erros tipo I e curvas de erro tipo II para diferentes cenários e tamanhos de amostras.

Filas

(Gustavo, João Vitor, Vitor e Eduardo)

Considere um problema básico de filas em que as chegadas ocorrem segundo uma distribuição exponencial de parâmetro \(\lambda_1\) e os atendimentos segundo segundo uma distribuição exponencial de parâmetro \(\lambda_2\). Supõe-se independência entre as chegadas e atendimentos.

Diferentes cenários podem ser definidos com escolhas de tempo/tamanho da fila, \(\lambda_1\) e \(\lambda_2\).

  1. Forneça um código para geração das filas e ilustre o uso em diferentes cenários.
  2. Estude a distribuição amostral do tamanho mediano da fila.
  3. Estude a distribuição amostral do tamanho máximo da fila.

(Re)parametrização e cobertura de intervalos de confiança

Seja \(Y\) uma variável aleatória com distribuição exponencial \(f(y; \lambda) = \lambda \exp\{- \lambda y\}\). Desejamos estimar (por ponto e intervalo):

  1. A média \(\mu = E[Y] = \frac{1}{\lambda}\),
  2. \(\phi = P[Y > k] = \exp\{- \lambda \cdot k\}\).

Em particular, deseja-se comparar diferentes alternativas para obter as estimativas intervalares através da taxa de cobertura. As alternativas consideram intervalos tipo “Wald” ou baseadas em cortes da função de verossimilhança. Obter intervalos das formas:

  1. obter intervalo de Wald para \(\lambda\) e obter intervalos para \(\mu\) e \(\phi\) transformando os limites do intervalo de \(\lambda\),
  2. obter erro padrão para \(\lambda\), aplicar o método delta e obter intervalos tipo Wald para \(\mu\) e \(\phi\),
  3. obter intervalo de corte de verossimilhança para \(\lambda\) e transformar limites do intervalo para obter intervaloes para \(\mu\) e \(\phi\),
  4. reparametrizar para \(\beta = 1/\lambda\) e repetir (1) e (2), sendo que (1) a reparametrização já expressa o parâmetro de interesse em a. e b.,
  5. reparametrizar a função de densidade para \(\mu\) e depois para \(\phi\) e obter intervalos de Wald e do corte de verossimilhança.

Sugere-se inicialmente considerar uma amostra de tamanho \(n = 10\), \(\lambda = 0,2\) e \(k = 10\).
Tome uma amostra como por exemplo:

##  [1]  4.0  6.4 17.7  3.7  4.0  9.1  0.5  2.1  1.3  4.6

Obter os gráficos da função de (log) verossimilhança para os parâmetros e os intervalos pedidos.
Na sequencia, conduza o estudo de simulação para avaliar a cobertura dos intervalos.

Os códigos a seguir fornecem ideias iniciais.

Escolhendo valores da regressora (\(x\)) para regressão

Parte 1: regressão linear simples

Considere que deseja-se estimar o modelo de regressão linear simples relacionando uma preditora \(x\) e uma variável resposta \(Y\). Estamos interessando em onde posicionar os valores de \(x\) que devem estar entre os valores -10 e 10. Existem tratamentos analíticos para esta questão, mas aqui vamos explorar computacionalmente por simulação algumas possiveis alternativas. Para um determinado número de pontos a serem observados (digamos, 12) considere:

  • Tomar pontos ao acaso entre -10 e 10.
  • Tomar pontos igualmente espaçados no intervalo.
  • Tomar dois valores em cada ponto escolhido ao acaso.
  • Tomar dois valores em cada ponto dentre pontos igualmente espaçados.
  • Tomar 1/4 de pontos em cada posição.
  • Tomar metade dos valores em \(x = -10\) e a outra metade em \(x = 10\).
  • Tomar pontos em mais dois “espalhamentos” definidos por voce.

Defina medida(s) de comparação dos “delineamentos”. Sugestões.

  • Erro padrão dos coeficientes de regressão.
  • Erro (e/ou erro padrão) médio de predição para uma sequência de valores de \(x\).
  • Erro (e/ou erro padrão) máximo de predição para uma sequência de valores de \(x\).
  • O determinante de \(X^\prime X\) é uma medida que combina os coeficientes. Explore também esta medida.
  • Voce sugere alguma outra medida?

Faça e declare suposições e valores fixados para conduzir o estudo.

Parte 2: regressão não linear

Repita o estudo para um modelo de regressão não linear, por exemplo, o modelo de Michaelis-Menten. O modelo tem origem em problemas de cinética enzimática sendo dado por: \[ \nu = \frac{V_{\max} \cdot [S]}{K_m + [S]} \] em que \(\nu\) é a velocidade da reação, \([S]\) é a concentração do substrato, \(V_{\max}\) é a velocidade máxima da reação e \(K_m\) é a constante de Michaelis-Menten que quantifica a concentração de substrato necessária para atingir a metade do tempo máximo de reação. Os valores de \(\nu\) e \([S]\) são observados e deseja-se estimar \(V_{\max}\) e \(K_m\).

O gráfico de \(\nu\) versus \([S]\) é uma hipérbole.
Para este modelo, considere que \(V_{\max} = 10\) e \(K_m = 1, 2\) e \(5\).

Rescrevendo em notação de regressão: \[ Y = \frac{\beta_1 x}{\beta_2 + x} + \varepsilon, \] em que \(Y = \nu\), \(x = [S]\), \(\beta_1 = V_{\max}\) e \(\beta_2 = K_m\).

Vamos considerar que os valores de \([S]\) são observados e que a variável resposta é obtida com erro normal de média zero e variância \(\sigma^2\).

Uma simulação de dados e ajuste deste modelo pode ser feita com o código a seguir. Existem diversas funcionalidades e pacotes para modelos não lineares no , até mesmo específicos deste modelo. Aqui vamos usar o pacote nls que é mais básico.

## Nonlinear regression model
##   model: y ~ beta1 * x/(beta2 + x)
##    data: df
## beta1 beta2 
## 9.276 1.437 
##  residual sum-of-squares: 4.344
## 
## Number of iterations to convergence: 4 
## Achieved convergence tolerance: 3.816e-07

O ajuste acima necessita de valores iniciais para os parâmetros. Utilizamos valores os verdadeiros porque temos dados simulados, mas na prática desconhecemos estes valores. É importante fornecer bons valores iniciais para obter a ajuste adequado.

No caso deste modelo a linearização pode ser usada para encontrar valores iniciais. Um modelo um pouco diferente devido a suposição diferente sobre erros é: \[ \frac{1}{y} = \frac{1}{V_{max}} + \frac{K_m}{V_{max}} \frac{1}{x} + \epsilon^{*}, \] que pode ser escrito como: \[ y^{*} = \beta_0^{*} + \beta_1^{*} x^{*} + \epsilon^{*}, \] em que \(y^{*} = 1/y\), \(x^{*} = 1/x\). Ou seja, ajustar um modelo linear com variáveis transformadas fornece estimativas \(\tilde{\beta}_0^{*}\) e \(\tilde{\beta}_1^{*}\) tal que \[ \tilde{\beta}_0^{*} = \frac{1}{\tilde{V}_{max}} \quad \mbox{e} \quad \tilde{\beta}_1^{*} = \frac{\tilde{K}_m}{\tilde{V}_{max}}. \] Isolando os valores iniciais para o modelo não linear: \[ \tilde{V}_{max} = \frac{1}{\tilde{\beta}_0^{*}} \quad \mbox{e} \quad \tilde{K}_m = \tilde{\beta}_1^{*} \tilde{V}_{max} = \frac{\tilde{\beta}_1^{*}}{\tilde{\beta}_ 0^{*}}. \] No exemplo de código acima teríamos:

## (Intercept)      I(1/x) 
##    9.222731    1.435304
## Nonlinear regression model
##   model: y ~ beta1 * x/(beta2 + x)
##    data: df
## beta1 beta2 
## 9.276 1.437 
##  residual sum-of-squares: 4.344
## 
## Number of iterations to convergence: 2 
## Achieved convergence tolerance: 1.925e-06

Para vários modelos já existem funções disponíveis em pacotes que fornecem valores iniciais “automáticos”. Para o modelo considerado aqui temos SSmicmen() que pode ser usada como a seguir.

## Nonlinear regression model
##   model: y ~ SSmicmen(x, Vm, K)
##    data: df
##    Vm     K 
## 9.276 1.437 
##  residual sum-of-squares: 4.344
## 
## Number of iterations to convergence: 0 
## Achieved convergence tolerance: 1.623e-06

Note-se que os novos valores iniciais fornecidos das três formas diferentes levaram ao mesmo ajuste.

Os intervalos de confiança e predição não são calculados automaticamente pelo método predict.nls(). Diversos pacotes fornecem funções implementações por métodos de aproximação (método delta) e/ou por simulação. Vamos considerar aqui investr::predFit().

Desenhe um estudo de simulação análogo ao do caso anterior.

Médias

(Lais, Marco e Paulo V.)

Faça uma comparação (por simulação) propriedades e taxas de cobertura de três estimadores da média de uma população, a média aritmética, a trimédia e o mid-range.

\(\overline{Y} = \frac{\sum_{i=1}^{n} Y_i}{n}\) ,

\(\overline{Y}_1 = \frac{Q_1 + 2 Q_2 + Q_3}{4}\) ,

\(\overline{Y}_2 = \frac{Q_1 + Q_3}{2}\) ,

em que \(Q_i\) denota o \(i\)-ésimo quartil.

Considere diferentes tamanhos de amostra e ao menos cinco diferentes cenários de distribuições dos dados e/ou contaminação das amostras por outliers. Por exemplo, pode-se usar as distribuições normal (rnorm()), \(t\) (rt()), Logística (extraDistr::rlogis()), Laplace(extraDistr::rlaplace()) e Cauchy (rcauchy()). Padronize para que tenham a mesma variância/escala.

O “andar do bêbado”

(Alan, Gligor e Pietro)

(Baseado em (Dachs 1988)) O problema ilustra umsistema de trajetórias aleatórias e como alegoria imagina um “bêbado” que sai de um bar e tenta chegar em casa.

Assume-se um esquema simplificado de quadras de uma cidade com quadras quadradas e de lado igual a 1. O ponto de partida é o cruzamento na coordenada (0, 0) e, andando uma unidade de distância em qualquer uma das quatro direções, chega-se a outro cruzamento. O objetivo é chegar no ponto de coordenadas (3, 4).

Define-se que:

Além de “chegar em casa” (chegar em (3,4)), é necessário definir outro “critério de parada”, como o tempo máximo da tentativa.

  1. Estimar probabilidade de chegar em casa em até uma hora. A estimativa deve vir acompanhada de alguma medida de variabilidade/incerteza.
  2. Obter a distribuição do números de chegadas em 100 tentativas.
  3. Obter a distribuição de probabilidades dos possíveis tempos.
  4. Verificar a probabilidade de chegada para outros tempos, que não de uma hora, máximos de tentativa. Descreva o comportamento destas probabilidades começando do menor tempo possível de 35 minutos.
  5. Crie visualizações para os dados/resultados.

Regressão (linear simples) e estimadores

A inferência em modelos de regressão linear simples baseia-se na suposição de normalidade dos resíduos. Entretanto dados podem apresetnar comportamentos em desacordo com esta suposição, podendo afetar resultados de inferência. Uma das formas de atacar o problema é usar estimadores alternativos. Por exemplo, na linguagem R, o modelo de regressão linear simples pode ser estimado usando a função lm(). Dentre as alternativas, estão os métodos implementados nas funções MASS::rlm() e MASS::lqs(). Ainda outra alternativa é adotar e regressão quantílica quantreg::rq().

Neste atividade deve-se avaliar por simulação os métodos mencionados quanto a propriedades dos estimadores, taxa de cobertura e erros em teste de hipótese. Considere diferentes distribuições para gerar os resíduos na simulação: Normal, Laplace (extraDistr::rlaplace()), Uniforme e Cauchy, devidamente padronizadas para que contenham a mesma variabilidade.

Probabilidades em jogos

(Matheus, Lucas e Clara)

O desenvolvimento de probabilidades esteve ligado ao desenvolvimento de teoria para avaliar chances em jogos de azar. Neste curso, ilustramos, por exemplo, o problema das probalidades de Chevalier, que pode ser resolvido analiticamente, mas foi aproximado computacionalmente por simulação.
Nesta atividade vamos considerar avaliar, usando simulações, probabilidades em outros jogos.

Jogo 1. Considere 12 lançamentos de um dado. Deseja-se avaliar a probabilidade de ocorrer uma sequência de dois ou mais “6” consecutivos.

Jogo 2. Lançando-se uma moeda até obter o resultado desejado,

Jogo 3: Considere um baralho comum com 52 cartas. Deseja-se avaliar a probabilidade de dois \(A\)’s aparecerem juntos após o baralho ser bem embaralhado, ou seja as cartas tem posições que podem ser consideradas aleatórias.

OBS: Note que vários cenários satisfazem a condição: dois, três ou até quatro \(A\)’s consecutivos ou pares de \(A\)’s. Usando a ideia de evento complementar, a probabilidade calculada fica: \[ 1 - \frac{\frac{49!}{(49-1)!} 48!}{52!} \approx 0,217376. \]

Jogo 4: Deseja-se avaliar para cartas embaralhadas ao acaso e deseja-se avaliar a probabilidade que um rei e uma rainha apareçam juntos.
Muitas opções possíveis!

Jogo 5: Deseja-se avaliar para cartas embaralhadas ao acaso qual a probabilidade que um rei e uma rainha apareçam juntos ou separados por no máximo uma carta.
Muitas opções possíveis!

Jogo 6: Proponha e avalie probabilidades em mais um jogo de sua escolha (pode ser com o baralho ou outro).

Estimação de proporção

(Alicia, Marlon e Rafaele)

A inferência para uma proporção pode ser baseada no resultado (TLC): \[ \hat{p} \approx {\rm N}(\mu_{\hat{p}} = p , \sigma^2_{\hat{p}} = \frac{p (1-p)}{n})\] em que na expressão de \(\sigma^2_{\hat{p}}\) pode-se fazer \(p = \hat{p}\) o que resulta em intervalo de confiança (assintótico) de \(\hat{p}\) \[\left(\hat{p} - z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \;;\; \hat{p} + z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right).\] Um intervalo alternativo considera que \(p(1-p)\) e máximo para \(p = 1/2\) e o intervalo (dito conservador) fica: \[\left(\hat{p} - z_{1-\alpha/2}\sqrt{\frac{1}{4n}} \;;\; \hat{p} - z_{1-\alpha/2}\sqrt{\frac{1}{4n}} \right).\]

Entretanto estes intervalos podem não ter boas propriedades, especialmente para valores de tamanho \(n\) de amostra pequenos e valores de \(p\) próximos a zero ou um..
A função binom::binom.confint() implementa o cálculo destes dois intervalos bem como de diversas alternativas.

Neste trabalho deve-se comparar a taxa de cobertura dos intervalos de confiança implementados na função binom::binom() para diferentes cenários de tamanho de amostra, valor do parâmetro \(p\) e confiança do intervalo.
Por exemplo, pode-se avaliar a probabilidade de que o intervalo de confiança de \(p\) seja de 95% de cobertura para \(n\) de amostra de \(50, 80, 120, 200\) e \(500\), ou outros tamanho de amostra à escolha.. Deve-se ainda tomar o valor de \(p = 0,20\) e avaliar erros tipo I e II do teste desta hipótese para uma escolha de tamanho de amostra.

Referencias

Dachs, Norberto. 1988. Estatística Computacional. Livros técnicos científicos.

“Teaching Bits: A Resource for Teachers of Statistics.” 1994. Journal of Statistics Education 2 (2). https://doi.org/10.1080/10691898.1994.11910475.