Amostras pareadas

Num estudo pareado, temos duas amostras mas cada observação da primeira amostra é pareada com uma observação da segunda amostra. Tal delineamento ocorre, por exemplo, num estudo de medidas feitas antes e depois no mesmo indivíduo ou num estudo de gêmeos (onde cada conjunto de gêmeos forma um dado pareado). Como esperado, as duas observações do mesmo indivíduo (ou de um conjunto de gêmeos) são mais prováveis de serem similares, e portanto não são considerados estatíticamente independentes.

Com dados pareados, podemos usar a seguinte notação:

\begin{eqnarray*}
x_{1i} &=& \mbox{measurement 1 on pair $i$},\\
x_{2i} &=& \mbox{measurement 2 on pair $i$}
\end{eqnarray*}


a então escrevemos as diferenças nas medidas de cada par como

\begin{displaymath}
d_{i} = x_{2i} - x_{1i}.
\end{displaymath}

Agora temos uma amostra de diferenças $d_i$, e podemos usar os métodos que já estamos familiares. Podemos calcular um intervalo de confainça para a diferença média e testar se a diferença média é igaul a um particular valor (usualmente zero) ou não. Nos referimos a tal teste como um paired t-test ao contrário do test-t para duas amostras acima.

Note que neste caso estamos interessados na diferença média enquanto que quando temos duas amostras independentes, estamos interessados na diferença nas médias. Ainda que numericamente estas quantidades são as mesmas, conceitualmente elas são diferentes.

Exemplo: A mudança nos níveis de um contaminante numa certa área do início ao final de seis meses de observação foram (em $\mu/l$):

\begin{displaymath}
\begin{array}{rrrrrr}
-1.5 & -0.6 & -0.3 & 0.2 & -2.0 & -1.2
\end{array}\end{displaymath}

A média e o desvio padrão são $-0.9$ e $0.81$ $\mu/l$ respectivamente. Então o erro padrão é $0.81/\sqrt{6} = 0.33$ $\mu/l$.

Podemos agora realizar um test-$t$ pareado para testar a hipótese nula de que a perda na concentração média é 0. Para isso calculamos

\begin{displaymath}
t = \frac{\bar{d}-0}{\mbox{SE}(\bar{d})} = \frac{-0.9}{0.33} =
-2.73.
\end{displaymath}

Note que este valor é negativo (porque a mudança média observada foi a redução na concentração do poluente -- um valor positivo seria um aumento na concentração do poluente). Observamos o valor absoluto da estatística de teste (2.73) na tabela, usando a linha com $n-1=5$ graus de liberdade.

A quinta linha da tabela mostra que $0.01 < p < 0.05$ (porque o valor 2.73 está entre os valores tabelados 2.571 e 4.032). Então, rejeitamos a hipótese nula ao nível de 5%. Existe evidência ao nível de 5% de que a área em estudo sofreu uma redução em média nos níveis do contaminante durante o período de seis meses.

Podemos adicionar à nossa conclusão o intervalo de confiança de 95% para a redução média nos níveis do contaminante: $-0.9 \pm 2.57 \times
0.33 = -0.9 \pm 0.85 = (-1.75,-0.05)$ Estamos 95% confiantes que a redução média nos níveis do contaminante está entre 0.05$\mu/l$ e 1.75$\mu/l$.

Silvia E Shimakura 2006-08-30