Tabela de conteúdos

Introdução à análise exploratória de dados

Introdução à análise exploratória de dados

O que é Estatística?

A Estatística é um conjunto de métodos desenvolvidos com a finalidade de auxiliar a responder, de forma objetiva e segura, problemas que envolvem uma grande quantidade de informações.

No dicionário Aurélio, encontra-se como a primeira definição para Estatística:

[Do fr. statistique.] S. f. 1. Parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e fazer ilações ou predições com base nesses dados.

A quantificação de toda espécie de informações tem aumentado nas últimas décadas e é parte do nosso cotidiano desde a popularização dos computadores. No passado, tratar uma grande massa de números era uma tarefa custosa e cansativa, que exigia horas de trabalho tedioso. Recentemente, grande quantidade de informações pode ser analisada rapidamente com um computador pessoal e programas adequados. Desta forma, o computador contribui positivamente na difusão e uso de métodos estatísticos. Por outro lado, este possibilita uma automação que pode levar um indivíduo sem preparo a utilizar técnicas inadequadas para resolver um dado problema. Assim, é necessário a compreensão dos conceitos básicos da Estatística, bem como as suposições necessárias para o seu uso de forma criteriosa.

Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos.

A grosso modo podemos dividir a Estatística em três áreas:

Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente, incluem as três áreas acima.

Na terminologia estatística, o grande conjunto de dados que contém a característica que temos interesse recebe o nome de população. Esse termo refere-se não somente a uma coleção de indivíduos, mas também ao alvo sobre o qual reside nosso interesse (por ex: lâmpadas produzidas por uma fábrica num certo período de tempo, ou ainda todo o sangue no corpo de uma pessoa).

Algumas vezes podemos acessar toda a população para estudarmos características de interesse, mas, em muitas situações, tal procedimento não pode ser realizado por:

Tendo em vista as dificuldades de várias naturezas para se observar todos os elementos da população, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da população, em geral com dimensão sensivelmente menor, é denominado amostra.

Figura 1.1: População e amostra.

A seleção da amostra pode ser feita de várias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da população, da quantidade de recursos disponíveis e assim por diante.

O objetivo é tentar fornecer um subconjunto de valores o mais parecido possível com a população que lhe dá origem.

A amostragem mais usada é a amostra casual simples, em que selecionamos ao acaso, com ou sem reposição, os itens da população que farão parte da amostra.

Se houver informações adicionais a respeito da população de interesse, podemos utilizar outros esquemas de amostragem mais sofisticados.

Quanto mais complexa for a amostragem maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a uma diminuição no tamanho de amostra necessário para uma dada precisão.

—-

Variação amostral

Como dito, a Estatística refere-se a um conjunto de métodos para coleta e descrição dos dados, e então a verificação da força da evidência nos dados pró ou contra certas idéias científicas. A presença de uma variação não previsível nos dados faz disso uma tarefa pouco trivial.

Um exemplo em que a variação está presente nos dados:

Função pulmonar em pacientes com fibrose cística: A pressão inspiratória estática máxima (PImax) é um índice de vigor respiratório muscular. Os seguintes dados mostram a idade (anos) e uma medida de PImax (cm H2O) de 25 pacientes com fibrose cística.

Sujeito Idade PImax
1 7 80
2 7 85
3 8 110
4 8 95
5 8 95
6 9 100
7 11 45
8 12 95
9 12 130
10 13 75
11 13 80
12 14 70
13 14 80
14 15 100
15 16 120
16 17 110
17 17 125
18 17 75
19 17 100
20 19 40
21 19 75
22 20 110
23 23 150
24 23 75
25 23 95

Sobre os dados acima, considere as seguintes questões:

  1. Todos os pacientes com fibrose cística tem o mesmo valor de PImax?
  2. Assumindo que a idade não afeta PImax, qual é um valor de PImax típico para pacientes com fibrose cística?
  3. Quão grande é a variabilidade em torno deste valor típico?
  4. Será que a suposição de que idade não afeta PImax é consistente com os dados?
  5. Se idade na verdade afeta PImax, como você descreveria o valor típico de PImax e variabilidade?
  6. Que tipo de representação gráfica poderia ser utilizada para visualizar adequadamente estes dados?

Organização de dados

Dado um conjunto de dados, como tratar os valores numéricos ou não, a fim de se extrair informações a respeito de uma ou mais características de interesse? Fazendo uso de tabelas e gráficos.

Exemplo

Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações:

Tabela 1.1: Informações de questionário estudantil - dados brutos

Note que:

Resumimos a classificação das variáveis no esquema abaixo:


Tabelas de frequências

A partir da tabela de dados brutos, podemos construir uma (tabela de frequências) com informações resumidas para cada variável.

Tabela 1.2: Tabela de frequências para a variável Sexo

Sexo ni fi
F 37 0,74
M 13 0,26
total n=50 1

Para variáveis cujos valores possuem ordenação natural faz sentido incluirmos também uma coluna contendo frequências acumuladas fac. Sua utilidade principal é ajudar a estabelecer pontos de corte com uma determinada frequência de valores da variável.

Tabela 1.3: Tabela de frequências para a variável Idade

Idade ni fi fac
17 9 0,18 0,18
18 22 0,44 0,62
19 7 0,14 0,76
20 4 0,08 0,84
21 3 0,06 0,90
22 0 0 0,90
23 2 0,04 0,94
24 1 0,02 0,96
25 2 0,04 1,00
total n=50 1

Observe que 90% dos alunos têm idades até 21 anos, de fato até 22, uma vez que este valor tem frequência zero.

Com relação à variável Peso (classificado como quantitativa contínua) podemos construir classes ou faixas de valores e contar o número de ocorrências em cada faixa (aqui usamos faixas de amplitude 10).

Tabela 1.4: Tabela de frequências para a variável Peso

Peso ni fi fac
40,0 ¦− 50,0 8 0,16 0,16
50,0 ¦− 60,0 22 0,44 0,60
60,0 ¦− 70,0 8 0,16 0,76
70,0 ¦− 80,0 6 0,12 0,88
80,0 ¦− 90,0 5 0,10 0,98
90,0 ¦− 100,0 1 0,02 1,00
total 50 1

Quando a variável é discreta, mas com conjunto de valores muito grande (ex. variável TV) o caminho adequado é tratar a variável como se fosse contínua e criar faixas para representar seus valores.

Tabela 1.5: Tabela de frequências para a variável TV

TV ni fi fac
0 ¦− 6 14 0,28 0,28
6 ¦− 12 17 0,34 0,62
12 ¦− 18 11 0,22 0,84
18 ¦− 24 4 0,08 0,92
24 ¦−¦ 36 4 0,08 1,00
total 50 1

Gráficos

Muitas vezes as informações contidas em tabelas podem ser mais facilmente entendidas se visualizadas através de gráficos. Graças à proliferação recursos gráficos, existe hoje uma infinidade de tipos de gráficos que podem ser utilizados (veja Figura 1.3, pág 12).

Note no entanto que a utilização de recursos visuais deve ser feita cuidadosamente; um gráfico desproporcional em suas medidas pode dar falsa impressão de desempenho e conduzir a conclusões equivocadas (Reis & Reis (2001), exemplo da pág 23).

Vamos definir três tipos básicos de gráficos: setores ou pizza, barras e histograma.

Gráfico de setores

Adequado para representar variáveis qualitativas. Consiste em repartir um disco em setores circulares correspondentes às porcentagens de cada valor.

A Figura 1.4 abaixo apresenta o diagrama de disco para a variável Toler, obtida a partir da Tabela 1.1.

Figura 1.4: Diagrama circular para a variável Toler.

Gráfico de barras

Mais adequado para variáveis discretas ou qualitativas ordinais. Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as frequências no eixo das ordenadas. Para cada valor da variável desenha-se uma barra com altura correspondendo à sua frequência.

Figura 1.5: Gráfico de barras para a variável Idade.

Histograma

Consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à frequência relativa da faixa. A altura de cada retângulo é denominada densidade de frequência ou simplesmente densidade definida pelo quociente da frequência relativa pela amplitude da faixa.

Para a variável Peso, as densidades de cada faixa podem ser obtidas dividindo-se a a coluna fi da Tabela 1.4 por 10, que é a amplitude de cada faixa. Veja o histograma obtido na Figura 1.6.

Figura 1.6: Histograma para a variável Peso.

Nota: Alguns autores usam a frequência absoluta ou porcentagem na construção do histograma. O uso da densidade impede que o histograma fique distorcido quando as faixas têm amplitudes diferentes.


Quartis

O histograma também pode ser utilizado no cálculo da mediana (mdobs), que é o valor da variável que divide o conjunto de dados ordenados em dois subgrupos de mesmo tamanho. Isto é, das observações ordenadas, 50% estão abaixo e 50% estão acima da mediana.

Exemplo 1.1: Vamos calcular a mediana da variável Peso através do histograma.

Graph

Cálculo da mediana usando o histograma para a variável Peso.

O conceito de mediana pode ser generalizado para situações em que o conjunto de dados é dividido em mais do que dois subgrupos. No caso de 4 subgrupos, além da mediana, dois valores tais que 25% das observações ordenadas estarão abaixo de um deles (primeiro quartil (Q1)) e 75% estarão abaixo do outro (terceiro quartil (Q3)).

Note que a mediana representa o segundo quartil (Q2).

O cálculo dos valores dos quartis também pode ser feito através do histograma.

Exemplo 1.2: No histograma da variável Peso, vemos que o valor de Q1 se encontra no intervalo [50,0; 60,0), ie corresponderá ao valor Q1 que determinará um percentual de 9% no retângulo correspondente:

Graph

Cálculo de Q<sub>1</sub> usando o histograma para a variável Peso.

O terceiro quartil pode ser obtido de forma semelhante (Q3=69,38).

Para o cálculo de quartis usando a tabela de dados brutos, precisamos ordenar as observações e escolher os valores que dividem os dados nas proporções desejadas. Em alguns casos pode ser necessário tomar médias de valores vizinhos.


Box-Plot

É uma forma de representação gráfica dos quartis.

Exemplo 1.3: Suponha que um produtor de laranjas costuma guardar as frutas em caixas e está interessado em estudar o número de laranjas por caixa. Após um dia de colheita, 20 caixas foram contadas. Os resultados brutos, após a ordenação, são:

22 29 33 35 35 37 38 43 43 44 48 48 52 53 55 57 61 62 67 69

Para estes dados temos que:

O box-plot correspondente é apresentado na Figura 1.7.

Figura 1.7: Box-plot para o número de laranjas por caixa.

A representação gráfica através do box-plot informa, dentre outras coisas, a variabilidade e simetria dos dados. Na Figura 1.7 os dados apresentam simetria acentuada2).

O box-plot para a variável Peso (Figura 1.8) por outro lado, apresenta uma pequena assimetria.

Figura 1.8: Box-plot para a variável Peso.

Gráficos do tipo box-plot também são úteis para detectar, descritivamente, diferenças nos comportamentos de grupos de variáveis (veja exemplo na Figura 1.9).

Figura 1.9: Box-plot para a variável Peso por sexo.

Podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variablidade e mais assimetria nos dados.

1)
O critério para decidir se uma observação é discrepante será discutido mais adiante no curso
2)
A distância da mediana para os quartis é a mesma.