11 de Abril de 2018

Justificativa

  • A cada 2 anos dobramos a quantidade de informação produzida.
  • Era do BIG DATA: volume, velocidade e variedade.
  • Processamos melhor a informação visual.
  • A análise exploratória é parte fundamental do processo de análise.
  • Gráficos ruins/inadequados estão por toda parte.
  • Gráficos adequados podem complementar ou até descrever melhor resultados das análises estatísticas.

Objetivo

  • Definir visualização de dados para análise exploratória e explanatória.
  • Apresentar gráficos para compreensão de variáveis categóricas, contínuas e suas relações.
  • Apresentar gráficos estáticos e reativos.
  • Dar recomendações sobre boas práticas na visualização de dados.
  • Mostrar recursos na linguagem R para visualização de dados.







Uma imagem vale mais que mil palavras.

– Provérbio inglês

Visualização de dados

O que são os gráficos?

  • São um recurso para visualizar informação dos dados que são representadas de forma ilustrativa, pictorial ou geométrica.
  • Mapeiam quantidades em atributos geométricos (posição, comprimento, área, cor, símbolo, linha, curva, polígono) geralmente utilizando um sistema coordenado como referência e elementos estéticos.

Para que eles servem?

Gráficos são usados para

  • Explorar a informação contida nos dados.
  • Compreender os dados, as variáveis observadas e o fenômeno correspondente de forma rápida.
  • Apresentar a informação de/em muitas variáveis em pouco espaço.
  • Reconhecer organização, estrutura, padrões e relações entre variáveis.
  • Detectar problemas: incompleto, incorreto, inconsistente e impreciso.
  • Avaliar as suposições e qualidade de um modelo estatístico.
  • Comunicar resultados de análises estatísticas.

História e futuro

  • O uso de mapas é bem antigo: cartografia.
  • Primeiros gráficos de dados são do século 17.
  • Confecção analógica de gráficos: limitação de tempo e quantidade.
  • Impulsão em 1970 com os computadores: confecção digital.
  • Era do BIG DATA: compreender dados de fenômenos complexos.
    • Grande volume: padrões mais evidentes.
    • Grande variedade: contínuos, categóricos, geográficos, cronológicos, circulares, composicionais, textuais.
    • Grande velocidade: tomar decisões rapidamente.
  • O top 10 das tendências para inteligência de mercado.
    1. Inteligência artificial.
    2. Impacto das artes liberais: visualização, design, storytelling.
    3. Processamento de linguagem natural.

Figura  1: Balança comercial da Inglaterra no período de 1700 a 1780 representada em um gráfico de linhas por William Playfair em 1786. [FONTE](https://en.wikipedia.org/wiki/File:Playfair_TimeSeries-2.png).

Figura 1: Balança comercial da Inglaterra no período de 1700 a 1780 representada em um gráfico de linhas por William Playfair em 1786. FONTE.

Figura  1: Mortes por cólera em Londres em 1854 sinalizadas no mapa por John Snow para detecção da fonte de contaminação. [FONTE](https://en.wikipedia.org/wiki/File:Snow-cholera-map-1.jpg).

Figura 1: Mortes por cólera em Londres em 1854 sinalizadas no mapa por John Snow para detecção da fonte de contaminação. FONTE.

Figura  2: Mapa de intensidade sobre as localização das mortes por cólera. [FONTE](https://medium.com/public-health/john-snow-early-big-data-science-d62b4dacd71b).

Figura 2: Mapa de intensidade sobre as localização das mortes por cólera. FONTE.

Tipos variáveis

Com relação tipo de valor das variáveis:

  • Variáveis métricas ou quantitativas.
    • Discretas: valores contáveis em intervalo finito.
      • Número de irmãos.
      • Número de sinistros/acidentes.
    • Contínuas: valores incontáveis em intervalo finito.
      • Altura.
      • Distância percorrida até o trabalho.
  • Variáveis categóricas ou qualitativas.
    • Nominais: não pussem ordenação natural.
      • Possuir animal de estimação.
      • Estado em que nasceu.
    • Ordinais: possuem ordenação natural.
      • Nível de escolaridade.
      • Graduação no karatê.

Limitação do suporte

Quanto a limitação do suporte, as variáveis podem ter:

  • Suporte aberto: \(-\infty < X < +\infty\).
  • Suporte fechado: \(X \in [0, 1)\).
  • Suporte semi-aberto: \(X \in [0, \infty)\).
  • Suporte circular: \(X \in [0, 2\pi)\).

Quantidade de variáveis

Com relação a quantidade de variáveis representadas:

  • Univariados: representa apenas uma variável.
  • Bivariados: representa duas variáveis.
  • Multivariados: representa 3 ou mais variáveis.

Tipos especiais de variáveis

  • Cronológicas: instantes, períodos, durações.
    • Datas: ano, mês e dia.
    • Tempo: hora, minuto e segundo.
    • Data-tempo: a junção das duas.
    • Complicações: irregularidade, fusos, cíclio, censuras.
    • Ex: análise de sobreviência.
  • Geográfico: coordenadas, rotas, polígonos.
    • Dados na superfície da Terra.
    • Complicações: projeções cartográficas, polígonos irregulares.
    • EX: geoestatística, processo pontual.
  • Espaço-temporal: junção do geográfico com cronológico.
  • Composicional: teores que somam um valor fixo.
    • Complicação: a restrição de soma.
    • Ex: modelos de mistura de componentes.

Emprego de gráficos

Análise exploratória Análise explanatória
Explorar os dados, ganhar intimidade Comunicar resultados das análises
Geram perguntas Geram respostas
Permitem criar e refinar de hipóteses Permitem confirmar hipóteses
É para consumo do cientista É para consumo de interessados/apoiadores
É um processo exaustivo: muitos gráficos são criados Apenas os gráficos principais são exibidos
Muitos gráficos: conteúdo redundante e conto prolixo Gráficos essenciais: enxutos, claros e conto conciso
Sem preocupação com design e acabamento Design e acabamento são importantíssimos
Selecionar variáveis, compreender tamanho de efeito, eliminar outliers Orientar o desenvolvimento das pesquisas, novas hipóteses
Auxiliar a especificar o modelo, avaliar suposições, corrigir problemas Estimular a compreensão e ação: tomada de decisão
Geralmente estáticos Podem ser reativos

Prática no R

Conjuntos de dados

Mais opções de gráficos

Stacked dot plot

  • Uma alternativa ao histograma quando a variável é discreta.

Violin plot

  • Uma representação que mistura o boxplot com o density para acomodar várias densidades conforme muda os níveis de um fator.
  • ggplot::geom_violin().
Figura  1: Exemplo de um gráfico de violino. [FONTE](http://www.storybench.org/getting-started-data-visualization-r-using-ggplot2/).

Figura 1: Exemplo de um gráfico de violino. FONTE.

Beeswarm plot

  • Uma alternativa para representar a distribuição de dados discretos.
  • Pacote R beeswarm.
Figura  1: Número de capulhos produzídos em função no nível de desfolha e fase de desenvolvimento de plantas de algodão. [FONTE](http://leg.ufpr.br/~walmes/pacotes/MRDCr-vignettes/v06_gamma_count.html).

Figura 1: Número de capulhos produzídos em função no nível de desfolha e fase de desenvolvimento de plantas de algodão. FONTE.

Joyplot

  • Alternativa ao violin plot para representar a distribuição de uma variável conforme os nível de outra.

Circular plot

  • Para representar a distribuição de dados direcionais ou cíclicos.

Gráfico de contornos ou níveis

Superfícies

Mapas de calor

Calendário de calor

Network ou rede de relacionamentos

Circles plot

  • Utilizado para representar movimentos migratórios, ligações gênicas, transações bancárias, etc.

Word cloud

Correlograma

Tree map

  • Representa no plano as divisões de uma árvore.

Quantil quantil plot

Scatterplot matrix

Dendrograma

Biplot

Chernoff faces

opts_chunk$set(echo = FALSE)

Não fazer ou evitar

Gráficos de setores

Considerações finais

  • Estão todos vivos?
  • Gráficos são fundamentais no processo de análise de dados.
  • Existe uma variedade grande de opções disponíveis.
  • O bom uso de gráficos vem com o tempo.
  • Atente-se para que ele seja claro, enxuto e conciso.
  • NÃO USE GRÁFICOS EM 3D.
  • Invista tempo para aprender um bom software para confecção de gráficos.

Obrigado!