1 Importado dados de planilhas

Em R (?), é possível ler um arquivo do Excel diretamente, utilizando o pacote gdata (?) ou RODBC (?). Também é comum salvar o arquivo como texto separado por vírgulas, com extensão .csv. O arquivo .csv pode ser lido sem pacote adicional, utilizando a função read.csv() ou read.csv2().

1.1 Dados com uma única avaliação

Um exemplo de dados com uma única avaliação, são dados de Pinta Preta dos Citrus (ppc) em um talhão no município de Itajobi (MG). Os dados foram dispostos em planilha e salvos em arquivo Excel. Uma cópia deste arquivo está disponível em http://leg.ufpr.br/~elias/Rcitrus/citrusData/Itajobi.xls

A função read.csv2() será usada para ler o arquivo Itajobi.csv, pois neste arquivo as colunas são separadas por “;” e os números decimais usam “.” como separador decimal. Esse arquivo não possui cabe¸a  lho com nome das colunas, então usamos o argumento header=FALSE.

Lendo o arquivo:


  > ita <- read.csv2("Itajobi.csv", header = FALSE)

O objeto ita, que contem os dados no ambiente R, é da classe data.frame.


  > class(ita)


  [1] "data.frame"

Nesse talhão há 62 linhas de plantas e 58 plantas na linha com o maior número de plantas.


  > dim(ita)


  [1] 62 58

Esta é uma representação espacial simplista, em linhas e colunas, das plantas de um talhão.

Pode-se visualizar as 5 primeiras linhas e 25 primeiras plantas nestas linhas, fazendo:


  > ita[1:5, 1:20]


    V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20
  1  0  0  0  0  0 NA NA NA NA  NA  NA  NA  NA  NA  NA  NA  NA  NA  NA  NA
  2  0  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0  NA  NA  NA  NA
  3  0  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
  4  0  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0
  5  0  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0

O código 0 (zero) corresponde a plantas sadias e o código 1 (um) corresponde às plantas doentes. No caso de falha ou irregularidade no talhão, as posições sem plantas são identificadas com NA. Nesse talhão a primeira linha tem apenas 5 plantas e desta forma ao colocar os dados em formato data.frame usa-se o código NA a partir da sexta linha.

1.2 Dados com mais de uma avaliação no tempo

Alguns conjuntos de dados contém mais de uma avaliação do estágio da doença, feitas em diferentes momentos do tempo. Assim, é necessário incorporar a estrutura temporal, além da espacial. Nesse caso, os dados de cada avaliação são armazenados um abaixo do outro, na mesma planilha de dados. Um exemplo é o conjunto de dados da incidência de msc no talhão 303, localizado no município de Comendador Gomes, estado de Minas Gerais. Uma cópia desses dados está disponível em http://leg.ufpr.br/~elias/Rcitrus/citrusData/original303.xls. Para simplificar, esse arquivo foi salvo em arquivo texto com extensão .csv.

Lendo esse arquivo com a função read.csv2() e usando a opção header=FALSE.


  > ori303 <- read.csv2("original303.csv", header = FALSE)

Inspencionando o arquivo:


  > class(ori303)


  [1] "data.frame"


  > dim(ori303)


  [1] 612  49

Inspecionando as primeiras linhas e colunas dos dados:


  > ori303[1:42, 1:5]


                V1               V2 V3 V4 V5
  1      Municipio Comendador Gomes
  2    Propriedade       Vale Verde
  3   Proprietario
  4         Talhao              303
  5      Variedade         Valencia
  6   PortaEnxerto            Cravo
  7  LinhasPlantas               20
  8  PlantasLinhas               48
  9    EntreLinhas              7.5
  10  DentroLinhas                4
  11       Plantio             1991
  12      Latitude
  13     Longitude
  14
  15    08/01/2001
  16                              1  2  3  4
  17             1                0  0  0  0
  18             2                0  0  0  0
  19             3                0  0  0  0
  20             4                0  0  0  0
  21             5                0  1  0  0
  22             6                0  0  1  0
  23             7                0  0  0  0
  24             8                0  0  0  0
  25             9                0  0  0  0
  26            10                0  0  0  0
  27            11                R  0  0  0
  28            12                0  R  R  F
  29            13                0  0  0  0
  30            14                0  0  0  0
  31            15                R  0  0  0
  32            16                0  0  0  0
  33            17                0  0  0  0
  34            18                0  0  0  0
  35            19                0  0  0  0
  36            20                0  0  F  0
  37
  38
  39    08/08/2001
  40                              1  2  3  4
  41             1                0  0  0  1
  42             2                0  0  0  0

Nesse data.frame, observa-se que as 13 primeiras linhas, contém atributos do talhão: Proprietário, Talhão, Variedade, etc. Na 15a linha observa-se a data da avaliação. Na linhs 16, está a numeração das colunas. Os dados da 1a avaliação iniciam na linha 17, sendo a primeira coluna, a numeração da linha. Os dados dessa avaliação terminam na linha 36. Na linha 39 está a data da 2a avaliação e a seguir inicia o dados dessa avaliação dispostos da mesma forma que os dados da primeira avaliação.