2 Análises exploratórias

A primeira fase consiste em caracterizar o comportamento dos dados utilizando ferramentas exploratórias de forma a:

Na análise inicial consideramos que as variáveis podem ser separadas em três grandes grupos:

  1. Grupo I: variáveis com clara espacialização.
  2. Grupo II: variáveis quel talvez possam ser consideradas na análise mas talvez agrupadas ("presença""ausência", ou mais grupos) pois apresentam grande número de dados.
  3. Grupo III: variáveis aparentemente sem potencial para serem análisadas por apresentarem quase a totalizade dos valores iguais.

Nas subseções a seguir são apresentadas analíses exploratórias para cada variável, em cada um dos grupos. Para cada variável são mostradas figuras compostas de quatro gráficos, descritas em sentido horário por: (i) um diagrama das localizações dos dados, onde para cada ponto a cor representa o quartil correspondente ao valor medido no ponto, ordenados em: azul, verde, amarelo e vermelho. (ii) dados versus coordenada-Y, (ii) dados versus coordenada-X, (iv) histograma dos dados sobreposto pela densidade empírica estimada e marcas indicando posição dos pontos. Para cada variável levantam-se tópicos para discussão e/ou esclarecimento junto à equipe d o projeto.

2.1 Grupo I

As variáveis deste grupo possuem claramente padrão espacial bem como distribuição de valores que permitem adoção de modelos geoestatísticos simples, podendo ser usados diretamente os valores medidos, tipicamenta após alguma transformação e/ou eventual remoção de valores atípicos. De forma geral a transformação logarítmica (neperiano) é indicada.

Fazem parte descr grupo de variáveis os elementos: Calcio (Ca), potássio (K), Magnésio (Mg), Manganês (Mn), Estrôncio (Sr), Cloro (Cl), Bromo (Br), e os compostos: nitrato (NO3), fosfato (PO4), sulfato (SO4) além das variáveis de pH e condutividade.

Cálcio (Ca)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.100   2.300   3.810   6.006   7.140  48.610
Os dados de cálcio mostram uma distribuição claramente assimétrica e a família de transformações Box-Cox sugere a transformação logarítmica para estes dados. A Figura fig:ca-ori mostra os dados originais e a Figura fig:ca0 mostra os dados transformados, onde nota-se claramente um dado discrepante. Neste caso o dado original corresponde a 0.1 enquanto que excluído este o mínimo valor registrado passa a ser 0.41.

PJ: será que este é mesmo um dado discrepante ou um erro de registro, problema na amostra, etc?


pict

Figure 1: Cálcio (Ca), dados originais



pict

Figure 2: Cálcio (Ca), dados transformados (logarítmo)



pict

Figure 3: Cálcio (Ca), dados transformados (logarítmo), excluindo o dado discrepante.


Potássio (K)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.050   0.600   0.890   1.331   1.320 102.600
Inicialmente notas-se no dados originais de potássio (Figura 4) alguns valores extremamente atípicos, 102.6 e 43.6. A Figura 5 mostra os dados na escala logarítmica o que também evidencia um valor discrepante muito pequeno.


pict

Figure 4: Potássio (K), dados originais.



pict

Figure 5: Potássio (K), dados transformados (log).


As Figuras 6 e 7 mostram dos dados originais e transformados após a remoção destes três valores discrepantes. Os três dados e suas posições são listadas a seguir.

PJ: precisa-se discutir se estes valores são plausíveis ou erro de digitação, etc


      BACIAS_ID LABEL_UTME LABEL_UTMN LONGITUDE  LATITUDE  SIGLA
  509       536   746823.0    7195483 -48.54778 -25.33684 RL-015
  511       540   738946.5    7193118 -48.62556 -25.35946 RL-014
  593       629   669059.9    7151187 -49.31446 -25.74751 IG-008
      DATA_ANALI  K_ES2
  509 1996-03-08 102.60
  511 1996-03-08  43.60
  593 1996-03-19   0.05


pict

Figure 6: Potássio (K), dados originais, excluindo três valores discrepantes.



pict

Figure 7: Potássio (K), dados transformados (log), excluindo três valores discrepantes.


Magnésio (Mg)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.025   1.210   1.810   3.020   3.280 159.300

pict

Figure 8: Magnésio (Mg), dados originais.


pict

Figure 9: Magnésio (Mg), dados transformados (log).


O gráfico na escala logarítmica evidencia três dados claramente atípicos sendo um deles um valor baixo (0.025) e os outros dois valores muito altos (115.5 e 159.3)

PJ: será que estes são mesmo dados discrepantes ou decorrentes de erro de registro, problema na amostra, etc?


pict

Figure 10: Magnésio (Mg), retirados três dados discrepantes e transformados (log).


Sódio (Na)


      Min.  1st Qu.   Median     Mean  3rd Qu.     Max.
     0.125    1.010    1.680    5.672    2.830 1244.000

pict

Figure 11: Sódio (Na), dados originais.


pict

Figure 12: Sódio (Na), retirados dados > 200.



pict

Figure 13: Sódio (Na), retirados dados > 200, transformados (log).


Estrôncio (Sr)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.00600 0.02000 0.03000 0.04275 0.05000 0.70000

pict

Figure 14: Estrôncio (Sr), dados originais.


pict

Figure 15: Estrôncio (Sr), dados transformados.


Cloro (Cl)


      Min.  1st Qu.   Median     Mean  3rd Qu.     Max.
     0.008    0.430    0.800    7.721    1.500 2530.000

pict

Figure 16: Cloro (Cl), dados originais.


pict

Figure 17: Cloro (Cl), retirados dados > 200.



pict

Figure 18: Cloro (Cl), retirados dados > 200 dados transformados (log).


Nitrato (N03)


  as.geodata: 3 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.010   0.580   1.300   2.032   2.500  32.400

pict

Figure 19: Nitrato (NO3), dados originais.


pict

Figure 20: Nitrato (NO3), transformados (log).


Fosfato (PO4)


  as.geodata: 457 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.01000 0.01000 0.02000 0.04667 0.04000 0.83000

pict

Figure 21: Fosfato (PO4), dados originais.

Permanece assimétrico no logarítimo. Ver limites nas medidas


pict

Figure 22: Fosfato (PO4), dados transformados (log).


Sulfato (SO4)


  as.geodata: 3 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.010   0.140   0.350   1.945   0.710 330.000
Nota-se claramente nestes dados a censura à esquerda.


pict

Figure 23: Sulfato (SO4), dados originais.



pict

Figure 24: Sulfato (SO4), retirados dados > 50.



pict

Figure 25: Sulfato (SO4), retirados dados > 50, transformados (log) .


Acidez (pH)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    3.300   6.300   6.700   6.591   6.900   7.700

pict

Figure 26: Acidez (pH), dados originais.


pict

Figure 27: Acidez (pH), dados originais após retirada de valores < 4.


Condutibilidade (condu)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
     7.40   30.80   45.10   83.27   79.50 7540.00

pict

Figure 28: Condutibilidade (Condu), dados originais.


pict

Figure 29: Condutibilidade (condu), retirados dados acima do valor 1000.



pict

Figure 30: Condutibilidade, retirados dados acima do valor 1000 e transformados (log).


FAZER UMA TABELA MOSTRANDOS POSIÇOES DOS DADOS ATÍPICOS E VERIFICANDO SE COINCIDEM ENTRE AS VARIÁVEIS

2.2 Grupo II

Ferro (Fe)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
   0.0100  0.0100  0.0400  0.1054  0.1300  2.3500
Nota-se que para este elemento o valor mínimo é de 0.01 e registrado em 257 pontos Isto sugere que esta valor representa na verdade o limite mínimo de detecção, o que na literatura estatística é tratado pelo termo censura à esquerda.

Outro aspecto que se nota no gráfico é que apenas 3 das quatro cores dos quartis aparecem. Isto ocorre porque o número de dados no limite de deteção é muito alto e o valor mínimo é igual ao do primeiro quartil.


pict

Figure 31: Ferro (Fe), dados originais



pict

Figure 32: Ferro (Fe), dados transformados (logarítmo).


Manganês (Mn)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.00100 0.01000 0.01000 0.02555 0.01000 1.44000

pict

Figure 33: Manganês (Mn), dados originais.


pict

Figure 34: Manganês (Mn), dados originais.


Bromo (Br)


  as.geodata: 70 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.01000 0.01000 0.02000 0.04839 0.03000 8.50000

pict

Figure 35: Bromo (Br), dados originais.


pict

Figure 36: Bromo (Br), removendo dados > 1.



pict

Figure 37: Bromo (Br), retirados dados > 1, transformados (log).


Alumínio (Al)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
   0.0200  0.1250  0.1250  0.1733  0.1250  3.8600

pict

Figure 38: Alumínio (Al), dados originais.


pict

Figure 39: Alumínio (Al), transformados (log).


Bário (Ba)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.00700 0.02500 0.02500 0.03494 0.02500 0.27000

pict

Figure 40: Bário (Ba), dados originais.


pict

Figure 41: Bário (Ba), dados transformados (log).


Indio (In)


  as.geodata: 83 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.05000 0.05000 0.05000 0.06279 0.05000 0.41000

pict

Figure 42: Índio (In), dados originais.


pict

Figure 43: Índio (In), dados transformados (log).


Zinco (Zn)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.00200 0.01000 0.01000 0.01412 0.01000 2.41000

pict

Figure 44: Zinco (Zn), dados originais.


pict

Figure 45: Zinco (Zn), excluindo dados menores que 0,5.



pict

Figure 46: Zinco (Zn), excluindo dados menores que 0,5, transformados (log).


Flúor (F)


  as.geodata: 2 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  0.00000 0.01000 0.02700 0.05257 0.06000 0.98000
Nota-se que foram anotados 241 valores iguais a 10. Entretanto este não é o menor valor observado nos dados conforme pode ser visto na Figura 48, onde, na escala logarítima o efeito fica mais evidenciado. PJ: o que causa isto? seria um nível mínmo de detecção nas análise de algumas, mas não todas as amostras?


pict

Figure 47: Flúor (F), dados originais.



pict

Figure 48: Flúor (F), dados transformados (log).


Óxido Nítrico (NO2)


  as.geodata: 156 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
   0.0100  0.0100  0.0100  0.0144  0.0100  0.2300

pict

Figure 49: Óxido Nítrico (N02), dados originais.

2.3 Grupo III

Talvez possam ser, em alguns casos usadas em associação com análise de resíduos dos modelos para taxas de neoplasias.

Prata (Ag)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.025   0.025   0.025   0.025   0.025   0.025

Boro (B)


pict

Figure 50: Boro (B), dados originais

Cádmio (Cd)


pict

Figure 51: Cádmio (Cd), dados originais

Cobalto (Co)


pict

Figure 52: Cobalto (Co), dados originais

Cromo (Cr)


pict

Figure 53: Cromo (Cr), dados originais

Cobre (Cu)


pict

Figure 54: Cobre (Cu), dados originais

Gálio (Ga)


  as.geodata: 45 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
     0.05    0.05    0.05    0.05    0.05    0.05

Molibdênio (Mo)


pict

Figure 55: Molibdênio (Mo), dados originais

Níquel (Ni)


pict

Figure 56: Níquel (Ni), dados originais

Lítio (Li)


pict

Figure 57: Lítio (Li), dados originais

Chumbo (Pb)


pict

Figure 58: Chumbo (Pb), dados originais

Tálio (Tl)


  as.geodata: 45 points removed due to NA in the data

     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
    0.125   0.125   0.125   0.125   0.125   0.125

(V)


pict

Figure 59: (V), dados originais

(W)


     Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
      0.1     0.1     0.1     0.1     0.1     0.1