Definições

Seja $ x_1, x_2, \ldots, x_n$ o conjunto das medidas de uma das variáveis (alturas dos pais), e seja $ y_1,y_2,\ldots,y_n$ as medidas da outra variável (alturas dos filhos). Seja $\bar{x}$, $ \bar{y}$, $ s_x$ e $ s_y$ as médias e desvios padrão amostrais dos dois conjuntos de dados.

Primeiro calcule para cada indivíduo:

$\displaystyle c_i = (x_i - \bar{x}) \times (y_i -\bar{y}). $

Se valores altos de $ x$ tendem a acompanhar valores altos de $ y$, e se valores baixos de $ x$ acompanham valores baixos de $ y$ então $ c_i$ tenderá a ser positivo em sua maioria.

Se valores altos de $ x$ acompanham valores baixos de $ y$ e vice-versa então a maioria dos valores $ c_i$ serão negativos.

Se não existir associação entre $ x$ e $ y$ então se tomarmos a média aritmética dos valores $ c_i$, valores positivos e negativos tenderão a se cancelar.

Para obter uma medida do grau de associação da relação linear entre duas variáveis, usamos o coeficiente de correlação de Pearson, definido como:

$\displaystyle r = \frac{s_{xy}}{s_x s_y}.$

em que

$\displaystyle s_{xy} = \frac{ \sum (x_i - \bar{x})(y_i - \bar{y})}{n-1}.$

é a covariância amostral de $ x$ e $ y$ e é essencialmente a média dos valores de $ c_i$ acima, note que ela é similar à variância amostral.

Para os dados do exemplo acima, temos $ n=10$, $ \bar{x}=171.62$, $ \bar{y}=172.74$, $ s_x=9.45$, $ s_y=10.01$, $ s_{xy}=92.36$ a partir dos quais podemos calcular que $ r=0.976$.

Assim como para médias e desvios padrão, existe uma letra Grega especial que utlizamos para o coeficiante de correlação populacional: $ \rho$. Podemos considerar $ r$ como sendo uma estimativa de $ \rho$, exatamente como $\bar{x}$ é uma estimativa da média populacional $\mu$.

Abaixo estão exemplos de dados com seus coeficientes de correlação correspondentes.

\begin{figure}\centerline{\psfig{figure=figuras/cors.ps,width=4.9in}}
\end{figure}


Silvia Shimakura 2011-04-04