Regressão múltipla

Retornando aos dados de peso ao nascer, podemos ajustar um modelo de regressão linear que nos permita predizer peso ao nascer a partir do peso da mãe.

Contudo, temos muito mais informações do que somente o peso da mãe.

Se nós realmente queremos predizer peso ao nascer então seria sensato usar todos os dados que temos disponível.

Por exemplo, poderíamos tentar predizer peso ao nascer usando a idade da mãe e seu estatus de fumo em adição a seu peso.

O procedimento é exatamente o mesmo de antes, exceto que agora o modelo ao invés de uma única variável explanatória mwt, ele terá idade bem como fumo.

O output fica parecido com o mostrado anteriormente, e obtemos a seguinte descrição informal:

\begin{displaymath}\mbox{\tt peso} = 2362.5 + 7.154 \times \mbox{\tt idade} + 4.016
\times {\tt mwt} -269.3 \times \mbox{\tt fumo}\end{displaymath}

Podemos também obter intervalos de confiança para os coeficientes da mesma forma como antes. O único problema é que porque existe mais do que uma variável preditora não é tão fácil de traçar gráficos dos dados.

A interpretação é que mães que fumam são mais prováveis de terem bebês pesando cerca de 269.3g a menos na média; o peso no nascimento parece aumentar cerca de 4.016g por lb de peso da mãe, e o peso no nascimento parece aumentar cerca de 7.154g por ano de idade da mãe. (Repita estas conclusões usando intervalos de confiança.)

Os testes e intervalos de confiança indicam que idade pode não ser uma variável preditora importante, e podemos ajustar o modelo novamente sem esta variável.

O R-squared tem a mesma interpratação como sendo a proporção da variância na resposta explicada pelas preditoras. (Aqui $r$ é a correlação entre as respostas observadas e aquelas preditas pela equação do modelo.)

O valor de R-squared sempre aumenta à medida que mais variáveis explanatórias são acrescentadas no modelo, porque há sempre um ganho em poder de predição.

É importante ganhar um balanço entre ter um modelo complexo incluindo todas as possíveis preditoras, e um mais simples contendo somente as variáveis mais importantes. Na prática um modelo simples é frequentemente o melhor para predição.

Existem algumas técnicas para seleção de um subconjunto razoável de variáveis explanatórias, mas estas estão além do escopo deste curso.

shimakur 2016-02-29