Idéia básica

Em certas situações podemos estar interessados em descrever a relação entre duas variáveis, e também predizer o valor de uma a partir de outra. Por exemplo, se sabemos a altura de um certo estudante, mas não o seu peso, qual seria um bom chute para o peso deste estudante? O coeficiente de correlação apenas indica a grau de associação como um único número.

Retorne aos dados de altura e peso de estudantes na página 13. Denote as alturas por $x_1, x_2, \ldots, x_n$, e os pesos por $y_1,y_2,\ldots,y_n$. (Por enquanto vamos ignorar se eles são do sexo masculino ou feminino). Se estamos interessados em predizer peso de altura então não temos uma relação simétrica entre as duas variáveis. Chamamos peso a variável resposta ou dependente, e altura a variável explanatória, preditora ou independente. A variável resposta é sempre disposta no eixo vertical $y$, e a variável explanatória é sempre disposta no eixo $x$.

\includegraphics[width=4.5in]{pics/htwt.ps}

Se a relação entre as duas variáveis é aproximadamente linear, então os dados podem ser resumidos através do ajuste de uma reta passando pelos dados. A equação dessa reta é dada por

\begin{displaymath}y = a + bx\end{displaymath}

onde $a$ é conhecida como o intercepto e $b$ é a inclinação. Intuitivamente, queremos uma reta que forneça pequenas diferenças entre os verdadeiros pesos e aqueles dados pela reta para as alturas correspondentes.

O método padrão para obter a melhor reta ajustada é chamado mínimos quadrados o qual literalmente miniza a soma dos quadrados das distâncias de $y_i$ à reta ajustada. Em princípio isto requer traçar retas possíveis, calculando a soma dos quadrados das distâncias:

\begin{displaymath}
S = \sum_{i=1}^n (y_i - \hat{y}_i)^2 \quad = \sum_{i=1}^n \{y_i -
(a+b x_i)\}^2\end{displaymath}

e encontrar os valores de $a$ e $b$ (equivalentemente a reta) que fornecem o menor valor de $S$. É possível mostrar que a melhor reta é aquela tal que

\begin{displaymath}b= \frac{ \sum (y_i - \bar{y})(x_i - \bar{x})}{ \sum (x_i -
...
...x} \bar{y} }
{ \sum x^2 - n \bar{x}^2 } = \frac{s_{xy}}{s_x^2}
\end{displaymath}

e

\begin{displaymath}
a = \bar{y} - b\bar{x}.
\end{displaymath}

Para os dados de altura e peso $a = -51.17$kg e $b =0.68$kg/cm; então a reta de regressão é

\begin{displaymath}
y = -51.17 + 0.68 x.
\end{displaymath}

Nossa reta ajustada é uma estimativa da reta de regressão populacional, $y=\alpha + \beta x$. Nossos $a$ e $b$ são estimativas de $\alpha$ e $\beta$. (É comum, denotar-se estas estimativas por $\hat{\alpha}$ e $\hat{\beta}$ ao invés de $a$ e $b$.)

O próximo passo é construir intervalos de confiança etc para $\alpha$ e $\beta$ (intercepto e inclinação populacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas suposições acerca da população.

Silvia E Shimakura 2006-08-30