Estudos de caso em modelos de regressão linear

Estudo de caso 1 - Título para o estudo de caso 1

Resumo

Coloque texto aqui que represente o resumo da sua análise. Dê o enfoque no contexto dos dados, nos precedimentos aplicados e os resultados obtidos. o texto do resumo tem que ter linhas que iniciam com o sinal de maior.

Contexto dos dados

Dê o contexto dos dados, a fonte, do que trata o problema, qual é variável resposta e as regressoras. Forneça as unidades de medidas e o link para os dados. Por exemplo, esse é o link para os dados do exercício 3 do livro do Montgomery.

Dados do exercício 11.3

A tabela cars, por exemplo, são os dados de um experimento feito para avaliar a distância necessária para para o carro (m) em função da velocidade no momento do acionamento dos freios (mph). Foram realizados 50 registros. Note a referência da palavra cars com o link lá no final do arquivo. É uma outra forma de criar links.

Análise exploratória

Conduza uma análise exploratória e descreva as impressões obtidas com a mesma. Considerando a tabela de dados cars do pacote datasets do R a análise exploratória poderia ser diagrama de dispersão das variáveis. Verifica-se relação positiva entre as variáveis, possivelmente não linear e ainda uma leve relação média variância.

##-----------------------------------------------------------------------------
## Definições da sessão.

require(lattice)
require(latticeExtra)

## Informações sobre a sessão, versões.
sessionInfo()

##-----------------------------------------------------------------------------

## R version 3.1.0 beta (2014-03-28 r65330)
## Platform: i686-pc-linux-gnu (32-bit)
## 
## locale:
##  [1] LC_CTYPE=pt_BR.UTF-8       LC_NUMERIC=C              
##  [3] LC_TIME=pt_BR.UTF-8        LC_COLLATE=pt_BR.UTF-8    
##  [5] LC_MONETARY=pt_BR.UTF-8    LC_MESSAGES=pt_BR.UTF-8   
##  [7] LC_PAPER=pt_BR.UTF-8       LC_NAME=C                 
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C            
## [11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C       
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  base     
## 
## other attached packages:
## [1] latticeExtra_0.6-24 RColorBrewer_1.0-5  lattice_0.20-27    
## [4] knitr_1.5          
## 
## loaded via a namespace (and not attached):
## [1] evaluate_0.5.1 formatR_0.9    grid_3.1.0     stringr_0.6.2 
## [5] tools_3.1.0

##-----------------------------------------------------------------------------

xyplot(dist~speed, data=cars, type=c("p","smooth"),
       xlab="Velocidade (mph)", ylab="Distância")

##-----------------------------------------------------------------------------

plot of chunk explo

Como os dados são fornecidos no diretório walmes/data/MontgomeryASPE5th/ então eles podem ser lidos diretamente pelo link de destino. Para dados de regressão linear múltipla pode-se usar o gráfico de pares como uma opção para análise exploratória.

##-----------------------------------------------------------------------------
## Lendo aquivo de dados, exercício 12.9 do Montgomery.

e1209 <-
    read.table("http://www.leg.ufpr.br/~walmes/data/MontgomeryASPE5th/Ex12.9.txt",
               header=TRUE, sep="\t")
str(e1209)

##-----------------------------------------------------------------------------
## Ver em um gráfico de pares.

pairs(e1209)

##-----------------------------------------------------------------------------

## 'data.frame':    20 obs. of  4 variables:
##  $ x1: num  14.6 15.6 14.6 15 14.5 ...
##  $ x2: num  226 220 217 220 226 ...
##  $ x3: num  7 3.38 6.38 6 7.62 ...
##  $ y : num  128.4 52.6 113.9 98 139.9 ...

plot of chunk lerver

Modelo estatístico

Descreva o modelo estatístico que é atribuido aos dados, por exemplo, o de regressão linear simples é

\[ Y|X \sim \text{Normal}(\beta_0+\beta_1 x, \sigma^2) \]

em que \(Y\) é a distância, \(X\) é a matrix do modelo, \(\beta\) é o intercepto e \(\beta_1\) o coeficiente angular, no caso, associado ao efeito da velocidade (\(x\)). Mencione o método de estimação, que no caso, é mínimos quadrados ordinários.

Um modelo polinomial de segunda ordem seria

\[ Y|X \sim \text{Normal}(\beta_0+\beta_1 x+\beta_2 x^2, \sigma^2). \]

Um modelo de regressão linear mútipla seria

\[ Y|X \sim \text{Normal}(\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3 x_3, \sigma^2). \]

Ajuste e diagnóstico

Faça o ajuste do modelo aos dados e conduza análise de diagnóstico. Explore os gráficos dos resíduos para verificar as qualidade dos pressupostos e no caso de haver fuga esse os gráficos para tomar decisões no sentido de remediá-las. Pode-se considerar alterações na forma do modelo, a deleção de observações influentes e transformação nos dados. Como auxílio considere as medidas de influência (influence.measures()) e a transformação Box-Cox (MASS::boxcox()). Mantenha-se sempre descrevendo a análise em cada etapa até obter um modelo adequado para os dados. Não é necessário dar detalhes sobre as funções usadas, como a lm(), como elas funcionam ou que argumentos pedem. No entanto, forneça comentários ao longo do código para orientar o leitor.

Inferência e interpretação

Com o modelo ajustado faça interpretação dos parâmetros. Forneça medidas sobre o ajuste do modelo, como coeficiente de determinação, e medidas sobre a incerteza com relação aos parâmetros, como erros-padrões e/ou intervalos de confiança (confint()). Por fim, represente a curva ajustada junto das observações com banda de confiança para os valores preditos.

Conclusões

Faça as concluões. Preocupe-se em responder as perguntas/hipóteses estabelecidas na descrição dos dados e descrição do modelo.

Estudo de caso 2 - Título

Faça a mesm coisa para o estudo de caso 1. Inclua todas as sessões, inclusive a de resumo.

Estudo de caso 3 - Título

Idem.

Referências

Speed and Stopping Distances of Cars