Idéia básica

Em certas situações podemos estar interessados em descrever a relação entre duas variáveis, e também predizer o valor de uma a partir de outra. Por exemplo, se sabemos a altura de um certo estudante, mas não o seu peso, qual seria um bom chute para o peso deste estudante? O coeficiente de correlação apenas indica a grau de associação como um único número.

Denote as alturas por $ x_1, x_2, \ldots, x_n$, e os pesos por $ y_1,y_2,\ldots,y_n$. (Por enquanto vamos ignorar se eles são do sexo masculino ou feminino).

Se estamos interessados em predizer peso a partir de altura então não temos uma relação simétrica entre as duas variáveis. Chamamos peso a variável resposta ou dependente, e altura a variável explanatória, preditora ou independente.

A variável resposta é sempre disposta no eixo vertical $ y$, e a variável explanatória é sempre disposta no eixo $ x$.

\begin{figure}\centerline{\psfig{figure=figuras/htwt.ps,width=4.5in}}
\end{figure}

Se a relação entre as duas variáveis é aproximadamente linear, então os dados podem ser resumidos através do ajuste de uma reta passando pelos dados.

A equação dessa reta é dada por

$\displaystyle y = a + bx$

onde $ a$ é conhecida como o intercepto e $ b$ é a inclinação.

Intuitivamente, queremos uma reta que forneça pequenas diferenças entre os verdadeiros pesos e aqueles dados pela reta para as alturas correspondentes.

O método padrão para obter a melhor reta ajustada é chamado mínimos quadrados o qual literalmente miniza a soma dos quadrados das distâncias de $ y_i$ à reta ajustada.

Em princípio isto requer traçar retas possíveis, calculando a soma dos quadrados das distâncias:

$\displaystyle S = \sum_{i=1}^n (y_i - \hat{y}_i)^2 \quad = \sum_{i=1}^n \{y_i -
(a+b x_i)\}^2$

e encontrar os valores de $ a$ e $ b$ (equivalentemente a reta) que fornecem o menor valor de $ S$.

É possível mostrar que a melhor reta é aquela tal que

$\displaystyle b= \frac{ \sum (y_i - \bar{y})(x_i - \bar{x})}{ \sum (x_i -
\bar...
..._i y_i - n \bar{x} \bar{y} }
{ \sum x^2 - n \bar{x}^2 } = \frac{s_{xy}}{s_x^2}
$

e

$\displaystyle a = \bar{y} - b\bar{x}.
$

Para os dados de altura e peso $ a = -51.17$kg e $ b =0.68$kg/cm; então a reta de regressão é

$\displaystyle y = -51.17 + 0.68 x.
$

Nossa reta ajustada é uma estimativa da reta de regressão populacional, $ y=\alpha + \beta x$.

Nossos $ a$ e $ b$ são estimativas de $ \alpha$ e $ \beta$. (É comum, denotar-se estas estimativas por $ \hat{\alpha}$ e $ \hat{\beta}$ ao invés de $ a$ e $ b$.)

O próximo passo é construir intervalos de confiança para $ \alpha$ e $ \beta$ (intercepto e inclinação populacional), mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas suposições acerca da população.

Silvia Shimakura 2011-04-04