Não foi possível enviar o arquivo. Será algum problema com as permissões?

Essa é uma revisão anterior do documento!


Curso de capacitação ao ambiente estatístico R

Curso de capacitação ao ambiente estatístico R


Descrição

Curso ministrado pelo Professor M.Sc. Walmes Marques Zeviani aos Docentes da Faculdade de Ciências Agrárias da Universidade Federal da Grande Dourados (FCA/UFGD), coordenado pela Professora D.Sc. Lívia Maria Chamma Davide. O Curso tem o objetivo de apresentar o programa R e sua aplicação na análise de dados de experimentos agronômicos. O Curso foi ministrado no Laboratório de Geoprocessamento da FCH/UFGD no periódo de 25 à 29 de abril de 2011, das 19:00 às 22:30 horas.


Ementa da disciplina

Introdução a linguagem e interface de trabalho; Importação de dados; Análise exploratória de dados; Testes de significâncias; Análise de regressão linear e não linear; Análise de dados em delineamentos experimentais; Análise de experimentos com respostas do tipo proporção e contagem.


Justificativa

O Curso será importante para aprofundar a teoria de planejamento e análise de experimentos além de instrumentalizar os participantes com as funcionalidades do aplicativo estatístico R e expandir o conhecimento em métodos de análise de dados.


Conteúdo

  • Instalação do programa e da interface gráfica;
  • Introdução à manipulação de objetos e funções no R: definição de objeto, tipos de objeto, criação, acesso e modificação de objetos, criação e aplicação de funções;
  • Importação de dados e análise exploratória: entrada de dados pelo teclado, por arquivo externo, análise gráfica exploratória;
  • Estatística básica: estatísticas descritivas de posição, dispersão, assimetria, curtose, gráficos de distribuição de frequência, teste de normalidade, teste de aderência, geração de números aleatórios, teste de hipótese e intervalos de confiança para médias, proporções, variâncias e correlações.
  • Regressão linear: preparação dos dados, definição do modelo e pressuposições, estimação dos parâmetros, interpretação dos parâmetros, análise de resíduos e checagem das pressuposições do modelo, medidas de influência, inferência para os parâmetros (teste de hipótese, intervalos de confiança, regiões de confiança), predição de valores, elaboração de gráficos, procedimento stepwise, critério de AIC e BIC, remoção de outliers, transformação de dados;
  • Regressão não linear: definição, exemplos, preparação dos dados, definição do modelo, estimação dos parâmetros, análise de resíduos, inferência para os parâmetros (teste de hipótese, intervalos de confiança, teste da razão de verossimilhança), comparação de curvas ajustadas, ajuste de modelos com restrição na estimação dos parâmetros, predição de valores, elaboração de gráficos;
  • Análise de experimentos balanceados: experimento em delineamento inteiramente ao acaso com fator qualitativo (um fator e fatorial duplo), experimento em blocos ao acaso com fator qualitativo (um fator e fatorial duplo), experimento fatorial duplo com tratamentos adicionais (testemunhas), análise de covariância, modelos de regressão polinomial na análise de variância (fatorial qualitativo x quantitativo), fatorial com fatores quantitativos (modelos de superfície de resposta), experimento em parcela subdividida e subsubdividida, análise de resíduos, checagem das pressuposições do modelo, transformação de dados, testes de médias e contrastes;
  • Análise de experimentos não balanceados/ortogonais: experimento com um fator em delineamento inteiramente causalizado e blocos casualizados, anova e teste de médias, análise de experimento em blocos incompletos, análise de experimentos com fator de efeito aleatório;
  • Introdução a análise de experimentos com respostas não normais: definição de modelo linear generalizado, estimação de parâmetros, métodos de inferência, análise respostas do tipo proporção, análise de respostas do tipo contagem;
  • Elaboração de gráficos: diagramas de dispersão, histogramas, gráficos de barras, boxplots, gráfico de funções, controle dos parâmetros gráficos e customização.

Materiais do curso



Cronograma de atividades do Curso

Data Conteúdo
SEG 25 Instalação do R e RStudio. Introdução ao R e RStudio, menus e janelas. Mecanismo de busca e ajuda. Criação, acesso e modificação de objetos do tipo vetor, matriz, data.frame, e lista. Atributos dos objetos. Operações matemáticas e estatísticas. Obtenção de estatísticas para grupos de dados. Criação e uso de funções. Visto até o chunk number 8.
TER 26 Importação de dados, seleção de dados, gráficos de dispersão, boxplot, histograma, densidade, curvas, barras, quantil-quantil, matriz de dispersão, testes de hipótese para um média normal, diferença de médias normais, uma proporção, igualdade de duas variâncias normais, teste de normalidade, teste de aderência. Visto do chunk number 9 à 14.
QUA 27 Instalação de pacotes oficiais e não oficiais. Análise de dados de experimento em delineamento inteiramente causalizado (balanceado e desbalanceado), em blocos causalizados (balanceado e desbalanceado), em fatorial duplo qualitativo (balanceado). Gráficos de disgnóstico dos resíduos e checagem das pressuposições dos modelos. Teste para normalidade dos resíduos e homogeneidade de variâncias. Transformação de dados. Testes de médias e de agrupamento de médias.
QUI 28 Análise de dados em fatorial duplo qualitativo em blocos, qualitativo-quantitativo (regressão polinomial dentro da análise de variância) e quantitativo (técnicas de superfície de resposta), análise de covariância, contrastes com as médias ajustadas, análise de experimento em parcelas subdivididas e subsubdivididas.
SEX 29 Aspectos introdutórios da análise de regressão linear, estimação, testes de hipótese, qualidade de ajuste, gráfico de diagnóstico de resíduos, procedimentos para seleção de modelos, medidas de influência, predição de valores. Aspectos introdutórios de modelos de regressão não linear, obtenção de chutes iniciais ótimos, estimação, testes de hipótese, comparação de modelos aninhados, predição de valores. Aspectos introdutórios de modelos lineares generalizados, conceito, aplicações com respostas do tipo contagem e do tipo proporção.

Referências bibliográficas

[2009, techreport | www]
Ribeiro Júnior, P. J. (2009). Introdução ao Ambiente Estatístico R.
[2002, techreport | www]
Faraway, J. J. (2002). Practical Regression and Anova using {R}.
[2005, book | www]
Faraway, J. J. (2005). Linear models with R Chapman \& Hall/{CRC}.
[2002, book | www]
Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S Birkhäuser.
[2009, book | www]
Everitt, B. S., & Hothorn, T. (2009). A Handbook of Statistical Analyses Using R, Second Edition (2 ed.) Chapman \& Hall.
[2008, book | www]
Dalgaard, P. (2008). Introductory Statistics with R (2nd ed.) Springer.
[2008, book | www]
Dobson, A. J., & Barnett, A. (2008). An Introduction to Generalized Linear Models, Third Edition (3 ed.) Chapman and {Hall/CRC}.
[2008, book | www]
Ritz, C., & Streibig, J. C. (2008). Nonlinear Regression with R (1 ed.) Springer.
[2008, book | www]
Sarkar, D. (2008). Lattice: Multivariate Data Visualization with R (1 ed.) Springer.
[2005, book | www]
Murrell, P. (2005). R Graphics (1 ed.) Chapman and {Hall/CRC}.
[2010, book | www]
Maindonald, J., & Braun, J. W. (2010). Data Analysis and Graphics Using R: An Example-Based Approach (3 ed.) Cambridge University Press.
[2009, book | www]
Pinheiro, J., & Bates, D. (2009). Mixed-Effects Models in S and {S-PLUS} (1st ed. 2000. 2nd printing ed.) Springer.
[2000, book | www]
D.R., & Reid, N. (2000). The Theory of the Design of Experiments (1 ed.) Chapman and {Hall/CRC}.
[2004, techreport | www]
Beasley, C. R. (2004). Bioestatística usando o R - apostila de exemplos para o biólogo.
[2002, techreport | www]
Correa, J. C., & González, N. (2002). Gráficos Estadísticos con R.
[2005, techreport | www]
de Souza, E. F. M., Peternelli, L. A., & de Mello, M. P. (2005). Software Livre R: aplicação estatística.
[2006, techreport | www]
Monteiro, L. R. (2006). Introdução à biometria usando o R.


Questionário de avaliação do Curso

Clique para responder o questionário sobre avaliação do Curso. Não é necessário identificação. O questionário serve para aperfeiçoamento do Curso, portanto, resposta às questões com total sinceridade. Certo de sua colaboração, agradeço.


Seminário sobre planejamento de experimentos

Slides do seminário Planejamento de Experimentos oferecido aos acadêmicos do Curso de Pós Graduação em Produção Vegetal, Pós Graduação em Zootecnia e acadêmicos do 4ª ano do Curso de Agronomia (13:45-15:15h, 26/04/09, FCA/UFGD). O seminário abordou etapas do planejamento de um experimento, escolha das unidades experimentais, dos fatores, dos níveis dos fatores, da distribuição de probabilidade para a resposta, os pressupostos da análise de variância, aleatorização dos níveis às parcelas, o controle local, o planejamento de experimento para ajuste de modelos de regressão. Ao final foi dada um introdução ao aplicativo estatístico R e uma breve sessão de R com gráficos e análise de dados.


Pacotes necessários a serem instalados

# instala os pacotes oficiais usados durante curso via web
install.packages(c("fBasics","agricolae","ScottKnott","contrast","multcomp","gplots"),
                 dep=TRUE, repos="http://cran-r.c3sl.ufpr.br/")
 
# link para a página de download do pacote ExpDes
browseURL(URLencode("https://sites.google.com/site/ericbferreira/unifal/downloads-1"))


Procedimento para o ajuste de diversos modelos lineares

# gera dados
da <- data.frame(x=runif(100), z=5*rpois(100, lambda=7), w=runif(100, 50, 100))
da$y <- with(da, 12+0.1*x+0.05*z+0.34*w+0.2*sqrt(z)+0.1*x*w)+rnorm(100,0,0.1)
 
# vetor com as fórmulas específicando diferentes modelos lineares
form <- c(mod1=y~x, mod2=y~x+z, mod3=y~x+I(x^2), mod4=y~x+z+w)
 
# ajuste dos modelos
ajustes <- lapply(form, function(f){ m0 <- lm(f, data=da); m0 })
 
lapply(ajustes, summary) # quadro geral de estimativas e qualidade
lapply(ajustes, anova)   # quadro de anova sequencial
lapply(ajustes, coef)    # vetor de estimativas
sapply(ajustes, function(a){ summary(a)$r.squared})     # R²
sapply(ajustes, function(a){ summary(a)$adj.r.squared}) # R² ajustado
sapply(ajustes, function(a){ summary(a)$sigma})         # QMR
sapply(ajustes, deviance)                               # SQR
sapply(ajustes, df.residual)                            # GLR
lapply(ajustes, function(a){ summary(a)$coeff})         # tabela de estimativas
do.call(rbind, lapply(ajustes, function(a){ summary(a)$coeff})) # junta das tabelas
sapply(ajustes, fitted)    # valores ajustados
sapply(ajustes, residuals) # resíduos da análise
sapply(ajustes, vcov)      # matriz de covariância das estimativas
apply(sapply(ajustes, residuals), 2, shapiro.test) # normalidade dos resíduos


Procedimento para obter a análise de variância de diversas respostas

# importa dados
soja <- read.table("http://www.leg.ufpr.br/~walmes/cursoR/soja.txt",
                   header=TRUE, sep="\t", dec=",")
str(soja)
 
# ajusta um modelo e pede anova
m1 <- aov(rengrao~bloco+agua*potassio, soja)
anova(m1)
 
# cria uma lista com as variáveis resposta
respostas <- do.call(c, apply(soja[,4:7], 2, list))
do.call(c, respostas)
 
# faz o ajuste para todas as respostas
ajustes <- lapply(respostas,
                  function(r){
                    m0 <- aov(r~bloco+agua*potassio, data=soja)
                    m0
                  })
 
# pede todas as anovas
lapply(ajustes, anova)
 
# extrai o QMR com o sinal da significância e salva numa planilha xls
QMR <- do.call(cbind,
               lapply(ajustes,
                      function(a){
                        qmr <- anova(a)[,"Mean Sq"]
                        sig <- anova(a)[,"Pr(>F)"]
                        sig <- ifelse(sig<=0.01,"**", ifelse(sig<=0.05,"*","ns"))
                        sig[is.na(sig)] <- ""
                        qmr <- formatC(qmr, digits=4, format="f")
                        paste(qmr, sig, sep="")
                      }))
quadro <- cbind(FV=rownames(anova(m1)), GL=anova(m1)[,"Df"], QMR)
write.table(quadro, file="resumoanova.xls", quote=FALSE, row.names=FALSE, sep="\t")

Lista de afazeres

Lista de afazeres:
  • usar os dados de secagem de solo em micro-ondas na parte de modelos não lineares.
  • mostrar algum ajuste de blocos incompletos.
  • ✔ usar pacote ExpDes.
  • ✔ usar o RStudio, na versão mais nova descobrir como usar os controladores interativos.
  • usar os dados de semente da Lívia/Aline para glm(…, family=bionomial),
  • dados do Miguel para glm(…, family=Poisson),
  • ✔ dados do Flávio para glm(…, family=Poisson),
  • dados da sua TCC para experimentos em faixa,
  • ✔ dados do Fábio Ono para fatorial (soja),
  • dados do Fábio Régis para parcela subdivida com outras estruturas de correlação na profundidade,
  • dados da Carla para ajuste do duplo van Genuchten,
  • dados da sua Tese para ajuste de modelos não lineares de liberação,
  • dados da Nani para crescimento de goiaba,
  • dados do André para fatorial com 1 e 2 tratamentos adicionais,
  • ✔ dados do Caique para dados desbalanceados e análise de covariância,
  • usar dados do Maicon Inocencio para modelo de mistura e fatorial com adicionais,
  • usar gráficos com deslizadores para controlar uma observação e ver o que acontece com os gráficos de diagnóstico de resíduo ao deslocar uma observação.
  • ✔ tratar os casos de dic, dbc com um e dois fatores desbalanceados.
  • nos dados de DAP discutir a coisa de usar os valores preditos como dependentes de uma análise subsequente, a coisa do viés.
  • revisar a análise dos dados volume.txt, aplicar uma transformação para corrigir a heterogeneidade de variâncias.
  • fazer uma enquete para avaliar a qualidade do curso.

Espaço do participante (feedback)

Dê sua opinião e me ajude a melhorar o curso. Critique, comente, sugira, tire dúvidas, peça a inclusão de novos procedimentos, discuta, expresse-se. Sua opinião é muito importante.

~~DISCUSSION~ ~


QR Code
QR Code pessoais:walmes:cursorufgd (generated for current page)