Introdução

Seja uma amostra \(y = (y_1, y_2, \ldots, y_n)\) e quantidade de interesse (parâmetro) \(\theta\) para o qual se tem um estimador \[\hat{\theta} = \hat{\theta}(y).\]

O objetivo do método jackknife é estimar o viés e o erro padrão de \(\hat{\theta}\).

As amostras jackknife \(y(i)\) de tamanho \((n-1)\) são obtidas retirando-se cada um dos dados por vez \[y(i) = (y_1, y_2, \ldots, y_{i-1}, y_{i+1}, \ldots, y_n)\] Há portanto \(n\) amostras jackknife e para cada uma delas calcula-se uma estimativa \[\hat{\theta}_{(i)} = \hat{\theta}(y(i)).\] Simplificando notação denotamos \(\overline{\hat{\theta}_{(i)}} = \bar{\theta}\)

Viés

Estimativa de viés é obtida por \[ viés_J(\hat{\theta}) = (n-1)(\bar{\theta} - \hat{\theta}). \]

A expressão do estimador corrigido pelo viés é: \[ \begin{align} \hat{\theta}_J &= \hat{\theta} - viés_J(\hat{\theta})\\ &= n \hat{\theta} - (n-1)\bar{\theta}. \end{align} \]

Erro padrão

\[\text{se}(\hat{\theta}_J) = \sqrt{\frac{n-1}{n} \sum_{i=1}^n(\hat{\theta}_{(i)} - \bar{\theta})^2}\]

Pseudo-valores

Os pseudo-valores (\(pv_i\)) são valores calculados para cada amostra jackknife. \[pv_{i} = n \hat{\theta} - (n-1)\hat{\theta}_{(i)}.\]

Expressões do viés e erro padrão do estimador corrigido podem ser diretamente obtidas como função dos pseudo-valores. \[ \begin{align} \hat{\theta}_J &= \overline{pv_i} = \frac{1}{n} \sum_{i=1}^n pv_i\\ \text{se}(\hat{\theta}_J) &= \frac{S_{pv}}{\sqrt{n}} = \sqrt{\frac{1}{n}\frac{1}{n-1} \sum_{i=1}^n (pv_i - \overline{pv_i})^2}\\ \end{align} \]

Exemplo 1: Índice de Gini de diversidade

O artigo de (Dixon 2001) fornece dados com os quais ilustra os procedimentos de Jackknife e Bootstrap.

A estatística de interesse é o índice de Gini, \[G = \frac{\sum_{i=1}^n (2i-n-1) y_{(i)}}{(n-1) \sum_{i=1}^n y_i}, \] em que os valores de \(y\) são ordenados e \(y_{(i)}\) denota o valor ordenado na \(i\)-ésima posição.

Seguem código com o estimador na forma de uma função, os dados e a estimativa para dados fornecidos.

Estimativas individuais para as amostras jackknife e a média destas,

permitem estimar o viés (estimativa de) e estimativa corrigida.

O erro padrão étambém obtido a partir das estimativas das amostras jackknife.

Os pseudo valores permitem obter os mesmos resultados de forma direta.

Escrevendo função em R

O procedimento pode ser implementado em uma função para ser usado em outros dados e estimadores.

Há diversas implementações em pacotes do R. Entre elas aunção do pacote bootstrap.

Exemplo 2

Dados de (Manly 2006). Estimar \(\theta = \sigma\) com estimador \[\hat{\sigma} = \sqrt{\frac{\sum_{i=1}^n (y_i - \bar{y})^2}{n}}\]

Viés, estimativa corrigida e erro padrão.

Pseudo valores e cálculo alternativo de viés e erro padrão.

Repetir para \(\bar{y}\), \(s\), \(s^2\).

Exemplo 5

Um caso de avaliação bioequivalência de adesivos médicos apresentado em (Efron and Tibshirani 1993) é frequentemente citado como exemplo para método de jackknife. O objetivo do estudo é determinar se adesivos fabricados em um novo local são (bio-)equivalentes a anteriores. O estudo utilizou oito pacientes que tiveram níveis de certo hormônio mendido após utilizar três adesivos (patches) diferentes:
1. sem hormônio (placebo),
2. adesivo fabricado no local original,
3. adesivo fabricado no novo local.

Os dados são:

individuo placebo original novo
1 9243 17649 16449
2 9671 12013 14614
3 11792 19979 17274
4 13357 21816 23798
5 9055 13850 12560
6 6290 9806 10157
7 12412 17208 16570
8 18806 29044 26325

O critério para considerar que há bioequivalência é \[ \frac{|\mathbb{E}[\text{novo}] - \mathbb{E}[\text{original}]|}{\mathbb{E}[\text{original}] - \mathbb{E}[\text{placebo}]} \leq 0,20 \]

Neste caso o estimador de interesse é uma razão \[ \theta = \frac{\mathbb{E}[\text{novo}] - \mathbb{E}[\text{original}]}{\mathbb{E}[\text{original}] - \mathbb{E}[\text{placebo}]} \] e não há expressão fechada para o erro padrão.

Denotanto as variáveis medidas por \(Y_p\) para placebo, \(Y_o\) para original e \(Y_n\) para novo, definimos \[ Y_1 = Y_o - Y_p \;\mbox{ e }\; Y_2 = Y_n - Y_o\] O estimador de interesse é definido por \[\hat{\theta} = \frac{\overline{Y}_2}{\overline{Y}_1}\] que para os dados em questão produz \[\hat{\theta} = \frac{-452.2}{6342.4} = -0.071.\]

Daqui, pode-se seguir para obter amostras jackknife para estimar o vício, obter o estimador corrigido e o respectivo erro padrão. A função jack() vista anteriormente foi definida para dados em um único vetor e precisa ser adaptada para receber a estrutura de dados e estimador deste problema.

Alternativamente pode-se utilizar alguma função “pronta” de algum pacote como bootstrab::jackknife(), o que também requer organizar dados e função do estimador de maneira adequada.

Comentários

  • Método pode falhar se a estatística/estimador não é suave, no sentido que que pequenas variações nos dados devem provocar apenas pequenas alterações nas estimativas.
  • Por exemlo, a mediana não é suave. De forma geral quantis amostrais não são estatísticas suaves.
  • No exemplo com dados de (Manly 2006) \(\hat{\theta}_{(i)}\) só tem dois possíves valores, 069 e 0,72.
  • Uma alteração tentando contornar este problema é o delete-d jackknife qe remova \(d\) amostras em cada passo. Neste caso tem-se \(\binom{n}{d}\) amostras de tamanho \(n-d\). Para remover problemas de não suavidade recomenda-se \(\sqrt{n} < d < n\) e a amostra deve ser suficientemente grande.
  • O método bootstrap não tem problemas de suavidade e é, em geral, mais atrativo.

References

Dixon, Philip .M. 2001. “Design and Analysis of Ecological Experiments.” In, edited by Samuel M. Scheiner and Jessica Gurevitch, 2nd ed. Oxford University Press.

Efron, Bradley, and Robert J. Tibshirani. 1993. An Introduction to the Bootstrap. Monographs on Statistics and Applied Probability 57. Boca Raton, Florida, USA: Chapman & Hall/CRC.

Manly, Bryan F. J. 2006. Randomization, Bootstrap and Monte Carlo Methods in Biology. 3rd ed. Boca Raton: Chapman & Hall/CRC.


Licença Creative Commons 4.0

Este conteúdo está disponível por meio da Licença Creative Commons 4.0