====== CE-071: Análise de Regressão Linear ====== EXAME FINAL no dia 16/07, 19h00 no LABEST. Todo o conteúdo da disciplina. O aluno pode usar computador próprio. {{ http://www.visualreporting.dk/en/images/r-project-consultant.png?480|}} ==== Detalhes da oferta da disciplina ==== * Professor: [[http://www.leg.ufpr.br/~walmes|Walmes Marques Zeviani]], ([[http://www.leg.ufpr.br|LEG: Laboratório de Estatística e Geoinformação]]) * Curso: Estatística. * Período: 2014/1. * Local: LABEST, LAB C. * Horário: Segunda, 20h45-22:00h e quarta 19:00-20:30h. * Atendimento: Segunda, 19:00-20:30h. ==== Scripts, notas e documentos ==== Apostilas e textos úteis: [[http://dl.dropboxusercontent.com/u/48140237/ce071_livros.zip|ce071_livros.zip (84 MB)]] {{url>http://www.leg.ufpr.br/~walmes/ensino/ce071-2014-01/ 800px, 600px center}} /* ==== Histórico das Aulas do Curso ==== */ /* Abaixo o histórico de atividades realizadas em classe e atividades extra classe aplicadas. - 10/02: * Informação sobre a oferta da disciplina; * Introdução à regressão linear; * Panorama do conteúdo previsto. - 12/02: * Análise gráfica exploratória visando aplicação de regressão. - 17/02: * Representação matricial; * Interpretação geométrica; * Estimação pelo método dos mínimos quadrados. - 19/02: * Métodos numéricos considerados na estimação: decomposição QR e de Cholesky. - 24/02: * Estimação baseada na verossimilhança. - 26/02: * Esperança e variância dos estimadores; * Teorema de Gauss-Markov; * Análise de variância. - 10/03: * Regressão linear múltipla, resultados representados matricialmente; * Quadro de análise de variância; - 12/03: * Propriedades distribucionais dos estimadores; * Teste F de uma função linear para inferência sobre \beta; * Teste F do quadro de análise de variância. - 17/03: * Teste de hipótese para \beta e subconjuntos de \beta; * Teste da soma de quadrados extra; * Intervalos de confiança para \beta_j e funções lineares de \beta; * Intervalos de confiança para o valor predito e para observação futura. - 19/03: * Prática de regressão linear múltipla com o R; * Estudo sobre o preço de imóveis em função da área. - 24/03: * Fórmulas e matrizes correspondentes ao declarar modelos; * Tipos de parametrizações em modelos lineares para variáveis categóricas; * Prática de regressão linear múltipla com o R. - 26/03: * Prática de regressão linear múltipla com o R; * Estudo sobre o preço de veículos em função da quilometragem e tipo de câmbio; * Especificação e testes de hipóteses entre modelos aninhados. - 31/03: * Ajuste do modelo e previsão de valores; * Intervalos de confiança e intervalos de predição. - 02/04: * Análise dos pressupostos do modelo; * Medidas de influência; * Tipos de resíduos (crus, padronizados, studentizados); * DFfits, DFbetas e distância de Cook; - 07/04: * Análise dos resíduos e medidas de influência; * Prática de regressão linear múltipla com o R; * Estudo sobre o preço de relógios antigos; * Estudo sobre o salário de trabalhadores sociais. - 09/04: * Medidas de colinearidade; * Fator de inflação da variância. - 14/04: * Polinômios ortogonais; * Centralização das variáveis; * Prática de regressão linear múltipla com o R; * Estudo sobre nível de ddt em peixes; * Estudo sobre o gasto em consumo de alimentos por família. - 16/04: * Seleção de variáveis; * Seleção forward, backwad e stepwise baseados em critérios de informação (AIC e BIC); - 23/04: * Prática de regressão linear múltipla com o R; * Estudo sobre a qualidade de vinhos; * Estudo sobre o salario de executivos. - 28/04: * Variáveis categóricas no modelo de regressão; * Estudo das interações. - 07/05: * Introdução aos modelos de regressão não linear; * Aspectos motivacionais práticos e diferenças para o modelo linear; * Especificação, ajuste, diagnóstico e interpretação. - 12/05: * Regiões de confiança em modelos de regressão; * Relações entre a região de confiança e a matriz de covariância dos parâmetros; * Tipos de testes: razão de verossimilhanças e Wald; * Tipos de intervalo de confiança: baseados na verossilhança e de Wald. - 14/05: * Teste de hipótese; * Bandas de confiança; * Medidas de diagnóstico. - 19/05: * Ajuste de modelos não lineares com variáveis independentes categórias. - 21/05: * Comparação de modelos não lineares; * Parametrizações. - 02/06: * Apresentação de seminários. - 04/06: * Apresentação de seminários. */ ==== Links úteis ==== === Cursos, dados e scripts sobre Regressão Linear === * {{http://www.ats.ucla.edu/stat/sas/examples/chp/|Regression Analysis by Example, by Chatterjee, Hadi and Price}}: scripts; * {{http://www.ats.ucla.edu/stat/sas/examples/chp/chpsas_dl.htm|Regression Analysis by Example, by Chatterjee, Hadi and Price}}: dados em txt; * {{http://www.ats.ucla.edu/stat/stata/examples/ara/default.htm|Applied Regression Analysis, by Fox}} * {{http://www.ats.ucla.edu/stat/stata/examples/alsm/default.htm|Applied Lin Stat Models, by Neter, Kutner, Nachtsheim, and Wasserman}} * {{http://www.stat.ufl.edu/~winner/Regression_Examples.html|Regression Examples}}: dados e scripts de análises em R e $A$; === Cartões de referência === * {{http://www2.kenyon.edu/Depts/Math/hartlaub/Math305%20Fall2011/R.htm|Resumo de comandos R e pacotes para regressão}}; * {{http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf|Cartão de referência para regressão}}; === Medidas de diagnóstico === * {{http://www.stats.ox.ac.uk/~burke/Linear%20Models/Linear%20Models%20Notes.pdf|Slides de curso completo de Regressão Linear}}; * {{http://statweb.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf|Slides de medidas de diagnóstico}}; * {{http://www.stat.purdue.edu/~jennings/stat514/stat512notes/topic5.pdf|Resumo de medidas de diagnóstico}}; * {{http://courses.washington.edu/b515/l7.pdf|Exemplos de diagnóstico}}; * {{http://statweb.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf|Resumo de medidas de diagnóstico (com exemplos)}} === Regressão com variáveis categóricas === * {{http://www.sagepub.com/upm-data/21120_Chapter_7.pdf|Dummy-Variable Regression}}; * {{http://gauss.stat.su.se/gu/e/slides/F6-Dummy-Variable.pdf|Dummy variable regression models}}; * {{http://socserv.socsci.mcmaster.ca/jfox/Courses/SPIDA/dummy-regression-notes.pdf|Dummy-Variable Regression}}; * {{https://www.princeton.edu/~slynch/soc504/expanding_ols.pdf|Expanding the Model Capabilities: Dummy Variables, Interactions, and Nonlinear Transformations}}. ==== Avaliações ==== === Trabalho 1 === * Função para estimação de beta a partir de X e y. Implementar o método de estimação literal, decomposição de Cholesky e decomposição QR. * Função para calcular o quadro de análise de variância. * Função para tabela de estimativas com erro-padrão e IC. * Função para quadro de anova particionado. * Função para calcular o valor predito com IC. * Entregar o código impresso das funções programadas no dia 24/03/14. ## Estima o vetor de parâmetros \beta mycoef <- function(X, y, method){ ... } ## Retorna o quadro de análise de variância corrigido para a média myanova <- function(X, y){ ... } ## Retorna a tabela com erros padrões, t-valor, p-valor e IC para \betas mycoeftable <- function(X, y, conf=0.95){ ... } ## Retorna o quadro de análise de variância particionado para X1 myanovapart <- function(X, y, X1){ ... } ## Retorna o valor predito com IC mypredict <- function(x0, betas, vcov, conf){ ... } === Trabalho 2 === * Fazer estudo de simulação para estudar a distribuição amostral dos estimadores e das estatísticas do testes. * Verificar que E(\hat\beta) = \beta, var(\hat\beta) = \sigma^2(X'X)^{-1}, e que \hat\betas têm distribuição Normal. * Verificar que E(\hat\sigma^2) = \sigma^2 e que (n-p)*\hat\sigma/\sigma<\latex> têm distribuição qui-quadrado. * Verificar que F = (A\hat\beta-m)'[A(X'X)^{-1}A']^{-1}(A\hat\beta-m)/(r QMRes) têm distribuição F sob H0 que A\betas = m. * Estudar a distribuição da estatística F = QMReg/QMres e comparar com o F anterior. * Entregar código impresso com gráficos e tabelas que sobre os resultados solicitados no dia 24/03/14. ## Função que retorna estimativas de parâmetros e estatísticas sob uma ## amostra aleatória simulada ao ser executada. mysimula <- function(X, beta, sigma, A, m=beta){ ... } results <- replicate(10000, mysimula) === Trabalho 3 === * Programar funções para obter: * Resíduos ordinários, padronizados e studentizados; * Valores de alavancagem; * Distância de Cook; * DFfits, DFbetas; * As funções devem receber como argumentos as matrizes X e y e retornas as respectivas medidas; * Alavancagem h_i = H_{ii}\\ h = \text{diag}(H) = \text{diag}(X(X^\top X)^{-1}X^\top)\\ * Resíduos crus e_i = y_i - \hat{y}_i\\ e = y - \hat{y}\\ e = y - X\hat{\beta} * Resíduos padronizados (ou internamente studentizados) r_i = \dfrac{e_i}{s(e_i)} = \dfrac{e_i}{\hat{\sigma}\sqrt{1-h_{i}}} * Resíduos studentizados (ou externamente studentizados) t_i = \dfrac{e_i}{s(e_i)} = \dfrac{e_i}{\hat{\sigma}_{-i}\sqrt{1-h_{i}}}\\ \hat{\sigma}_{-i}^2 = \dfrac{(n-p)\hat{\sigma}^2-\frac{e_i^2}{1-h_{i}}}{(n-1)-p} * Distância de Cook D_i = \dfrac{(\hat{y}-\hat{y}_{i(-i)})^\top (\hat{y}-\hat{y}_{i(-i)})}{p\hat{\sigma}^2} = \dfrac{1}{p}\cdot\dfrac{h_i}{(1-h_i)}\cdot\dfrac{e_i^2}{\hat{\sigma}^2(1-h_i)} * DFfits dffits_i = \dfrac{\hat{y}_i-\hat{y}_{i(-i))}}{\hat{\sigma}_{-i}\sqrt{h_i}} = t_i\left( \dfrac{h_i}{1-h_i} \right )^{1/2} * DFbetas dbetas_i = \dfrac{\hat{\beta}-\hat{\beta}_{-i}}{\hat{\sigma}_{-i}\sqrt{\text{diag}((X^\top X)^{-1})}}\\ \hat{\beta}_{-i} = \hat{\beta}-\dfrac{e_i}{1-h_i}\cdot (X^\top X)^{-1} x_i === Trabalho 4 === * Análise de dados por meio de regressão com presença de variáveis independentes categóricas; * Os dados e contexto são exercício do capítulo 6 do *Applied Linear Regression* 3.ed do Weisberg; * Fazer a análise dos dados fornecendo o contexto e objetivos do mesmo, declarar o modelo, correr análise dos resíduos, interpretar os resultados, fazer a predição com bandas de confiança; * Entregar *.zip o pdf, Rnw e arquivos acessórios; * Prazo de entrega: 12/05/2014 até às 23h59; ##----------------------------------------------------------------------------- str(twins) ## 6.4. Eduardo. str(BGSall) ## 6.6. Michele. str(cathedral) ## 6.10. Paula. str(salary) ## 6.13. Cintia. str(mile) ## 6.18. Gustavo. ##----------------------------------------------------------------------------- ==== Links de arquivos e dados disponibilizados pelos alunos ==== {{threads>pessoais:walmes:ce071-2014-01:discussion}} ~~DISCUSSION~~ /* === Passos para disponibilizar arquivos no DATAFILEHOST === - Subir os arquivos (preferencialmente *.txt para dados) site {{http://www.datafilehost.com/|datafilehost}}; - Seguir as etapas caixas numeradas da figura abaixo: 1 - escolher o arquivo, 2 - fazer upload, 3 - copiar o link para colar na mensagem e 4 - em caso de erro use o link para deletar o arquivo; - Junto ao link para o arquivo coloque informações sobre o mesmo livro do qual foi retirado, página, número da tabela, nomenclatura das variáveis, contexto, objetivos da análise, unidade de medida das variáveis. As caixas numeradas indicam: 1 - identificação do remetente, 2 - mensagem contendo informações básicas e link para download, 3 - preenchimento de código de segurança e 4 - para concluir com o envio da mensagem. {{http://www.leg.ufpr.br/~walmes/ensino/passos_datafilehost.png?800|}} {{http://www.leg.ufpr.br/~walmes/ensino/passos_discussao.png?800|}} */