2 Análises exploratórias
A primeira fase consiste em caracterizar o comportamento dos dados utilizando ferramentas
exploratórias de forma a:
- evidenciar/destacar possíveis problemas nos dados,
- orientar decisões de como utilizar cada uma das variáveis (transformações, etc),
- destacar e decidir sobre dados claramente discrepantes.
Na análise inicial consideramos que as variáveis podem ser separadas em três grandes
grupos:
- Grupo I: variáveis com clara espacialização.
- Grupo II: variáveis quel talvez possam ser consideradas na análise mas talvez
agrupadas ("presença""ausência", ou mais grupos) pois apresentam grande número
de dados.
- Grupo III: variáveis aparentemente sem potencial para serem análisadas por
apresentarem quase a totalizade dos valores iguais.
Nas subseções a seguir são apresentadas analíses exploratórias para cada variável, em cada
um dos grupos. Para cada variável são mostradas figuras compostas de quatro gráficos, descritas
em sentido horário por: (i) um diagrama das localizações dos dados, onde para cada ponto a cor
representa o quartil correspondente ao valor medido no ponto, ordenados em: azul, verde,
amarelo e vermelho. (ii) dados versus coordenada-Y, (ii) dados versus coordenada-X, (iv)
histograma dos dados sobreposto pela densidade empírica estimada e marcas indicando posição
dos pontos. Para cada variável levantam-se tópicos para discussão e/ou esclarecimento junto à
equipe d o projeto.
2.1 Grupo I
As variáveis deste grupo possuem claramente padrão espacial bem como distribuição de
valores que permitem adoção de modelos geoestatísticos simples, podendo ser usados
diretamente os valores medidos, tipicamenta após alguma transformação e/ou eventual
remoção de valores atípicos. De forma geral a transformação logarítmica (neperiano) é
indicada.
Fazem parte descr grupo de variáveis os elementos: Calcio (Ca), potássio (K), Magnésio
(Mg), Manganês (Mn), Estrôncio (Sr), Cloro (Cl), Bromo (Br), e os compostos: nitrato (NO3),
fosfato (PO4), sulfato (SO4) além das variáveis de pH e condutividade.
Cálcio (Ca)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.100 2.300 3.810 6.006 7.140 48.610
Os dados de cálcio mostram uma distribuição claramente assimétrica e a família de
transformações Box-Cox sugere a transformação logarítmica para estes dados. A Figura fig:ca-ori
mostra os dados originais e a Figura fig:ca0 mostra os dados transformados, onde nota-se
claramente um dado discrepante. Neste caso o dado original corresponde a 0.1 enquanto que
excluído este o mínimo valor registrado passa a ser 0.41.
PJ: será que este é mesmo um dado discrepante ou um erro de registro, problema na
amostra, etc?
Potássio (K)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.050 0.600 0.890 1.331 1.320 102.600
Inicialmente notas-se no dados originais de potássio (Figura 4) alguns valores extremamente
atípicos, 102.6 e 43.6. A Figura 5 mostra os dados na escala logarítmica o que também evidencia
um valor discrepante muito pequeno.
As Figuras 6 e 7 mostram dos dados originais e transformados após a remoção destes três
valores discrepantes. Os três dados e suas posições são listadas a seguir.
PJ: precisa-se discutir se estes valores são plausíveis ou erro de digitação, etc
BACIAS_ID LABEL_UTME LABEL_UTMN LONGITUDE LATITUDE SIGLA
509 536 746823.0 7195483 -48.54778 -25.33684 RL-015
511 540 738946.5 7193118 -48.62556 -25.35946 RL-014
593 629 669059.9 7151187 -49.31446 -25.74751 IG-008
DATA_ANALI K_ES2
509 1996-03-08 102.60
511 1996-03-08 43.60
593 1996-03-19 0.05
Magnésio (Mg)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.025 1.210 1.810 3.020 3.280 159.300
O gráfico na escala logarítmica evidencia três dados claramente atípicos sendo um deles um
valor baixo (0.025) e os outros dois valores muito altos (115.5 e 159.3)
PJ: será que estes são mesmo dados discrepantes ou decorrentes de erro de registro, problema
na amostra, etc?
Sódio (Na)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.125 1.010 1.680 5.672 2.830 1244.000
Estrôncio (Sr)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00600 0.02000 0.03000 0.04275 0.05000 0.70000
Cloro (Cl)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.008 0.430 0.800 7.721 1.500 2530.000
Nitrato (N03)
as.geodata: 3 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.010 0.580 1.300 2.032 2.500 32.400
Fosfato (PO4)
as.geodata: 457 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01000 0.01000 0.02000 0.04667 0.04000 0.83000
Permanece assimétrico no logarítimo. Ver limites nas medidas
Sulfato (SO4)
as.geodata: 3 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.010 0.140 0.350 1.945 0.710 330.000
Nota-se claramente nestes dados a censura à esquerda.
Acidez (pH)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.300 6.300 6.700 6.591 6.900 7.700
Condutibilidade (condu)
Min. 1st Qu. Median Mean 3rd Qu. Max.
7.40 30.80 45.10 83.27 79.50 7540.00
FAZER UMA TABELA MOSTRANDOS POSIÇOES DOS DADOS ATÍPICOS E
VERIFICANDO SE COINCIDEM ENTRE AS VARIÁVEIS
2.2 Grupo II
Ferro (Fe)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0100 0.0100 0.0400 0.1054 0.1300 2.3500
Nota-se que para este elemento o valor mínimo é de 0.01 e registrado em 257 pontos Isto
sugere que esta valor representa na verdade o limite mínimo de detecção, o que na literatura
estatística é tratado pelo termo censura à esquerda.
Outro aspecto que se nota no gráfico é que apenas 3 das quatro cores dos quartis aparecem.
Isto ocorre porque o número de dados no limite de deteção é muito alto e o valor mínimo é igual
ao do primeiro quartil.
Manganês (Mn)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00100 0.01000 0.01000 0.02555 0.01000 1.44000
Bromo (Br)
as.geodata: 70 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.01000 0.01000 0.02000 0.04839 0.03000 8.50000
Alumínio (Al)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0200 0.1250 0.1250 0.1733 0.1250 3.8600
Bário (Ba)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00700 0.02500 0.02500 0.03494 0.02500 0.27000
Indio (In)
as.geodata: 83 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.05000 0.05000 0.05000 0.06279 0.05000 0.41000
Zinco (Zn)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00200 0.01000 0.01000 0.01412 0.01000 2.41000
Flúor (F)
as.geodata: 2 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00000 0.01000 0.02700 0.05257 0.06000 0.98000
Nota-se que foram anotados 241 valores iguais a 10. Entretanto este não é o menor valor
observado nos dados conforme pode ser visto na Figura 48, onde, na escala logarítima o efeito
fica mais evidenciado. PJ: o que causa isto? seria um nível mínmo de detecção nas análise de
algumas, mas não todas as amostras?
Óxido Nítrico (NO2)
as.geodata: 156 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0100 0.0100 0.0100 0.0144 0.0100 0.2300
2.3 Grupo III
Talvez possam ser, em alguns casos usadas em associação com análise de resíduos dos modelos
para taxas de neoplasias.
Prata (Ag)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.025 0.025 0.025 0.025 0.025 0.025
Boro (B)
Cádmio (Cd)
Cobalto (Co)
Cromo (Cr)
Cobre (Cu)
Gálio (Ga)
as.geodata: 45 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.05 0.05 0.05 0.05 0.05 0.05
Molibdênio (Mo)
Níquel (Ni)
Lítio (Li)
Chumbo (Pb)
Tálio (Tl)
as.geodata: 45 points removed due to NA in the data
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.125 0.125 0.125 0.125 0.125 0.125
(V)
(W)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.1 0.1 0.1 0.1 0.1 0.1