Web Scraping

31 de julho de 2019

Data! Data! Data! I can't make bricks without clay!

– Sir Arthur Conan Doyle

War is ninety percent information.

– Napoleon Bonaparte

Knowledge is power. You can't begin a career, for that matter even a relationship, unless you know everything there is to know about it.

– Randeep Hooda

The alchemists in their search for gold discovered many other things of greater value.

Arthur Schopenhauer

Without big data analytics, companies are blind and deaf, wandering out onto the Web like deer on a freeway.

– Geoffrey Moore

The goal is to turn data into information, and information into insight.

– Carly Fiorina

Justificativa

Dados \(\rightarrow\) conhecimento acionável.

Notícias: política, economia, inovação, etc.
Finanças: ações, cotação de moeda, investimentos.
Opinião: projeção de vendas, melhoria de produto, tendências.
Avaliações de consumidor (customer review).
Condições/previsões climáticas.
Condições de tráfego.
Torneios de esporte e e-sports.

Dados gratuitamente disponíveis

Na forma de WEB APIs: Twitter, LinkedIn, OMDB, apilist.fun, www.programmableweb.com.
Em sites governamentais: dados.gov.br, www.geoservicos.ibge.gov.br, www.ibge.gov.br, www.ipeadata.gov.br, www.tre-pr.jus.br, www.infraero.gov.br.
Em órgãos/instituições www.sine.com.br, www.ceasa.pr.gov.br, www.reclameaqui.com.br, www.atletismofap.org.
Em sites de empresas: comércio de imóveis/veículos, celulares, bolsa de valores.

O que é Web Scraping?

Web scraping (WS) is a process of automating the extraction of data in an efficient and fast way.¹

Web scraping is a term for various methods used to collect information from across the Internet. It is also called web data extraction, screen scraping or web harvesting.²

Web scraping is the process of information extraction from resources that are located on the World Wide Web and the classification of scraped and unstructured data (usually found in HTML pages) in a structured form like Spreadsheets or database tables.³

O WS e a Engenharia de Caractetísticas

Diagrama de fluxo dos níveis de maturidade em engenharia de características para ciência de dados. Fonte: o autor.

Objetivo desta aula

Consumo de dados da WEB é WEB Scraping (WS).
O R e Python possuem funcionalidades para WS.
Objetivos
- Definir as tarefas e principais componentes de WS.
- Descrever a estrutura de documentos XML/HTML e JSON.
- Introduzir a linguagem de consulta XPath.
- Apontar os principais desafios em WS.
- Apresentar o landscape de funcionalidades do R e Python para WS.
- Indicar conteúdo de WS em R e Python.

Principais tarefas de WS

Algumas das tarefas mais comuns¹:

Monitoramento de mídia digital (clipping).
Monitoramento de rede social (Twitter, Facebook, etc).
Download de arquivos (tabelas, documentos, imagens).
Consumo de corrente de dados (data streamming).
Consulta de dados financeiros (bolsa e criptomoeda).
Análise de mercado (preços, leadings).
Avaliação do consumidor.
Enriquecimento de dados (geocode, clima, tráfego, contexto).
Indexão de páginas web (Google e outros motores de busca).
Sites agregadores de sites (Buscapé, Trivago, etc).
Etc.

Componentes de WS

Componentes de Web Scraping. Fonte: o autor. Ícones feitos por <a href="https://www.flaticon.com/authors/nikita-golubev" title="Nikita Golubev">Nikita Golubev</a> disponíveis no <a href="https://www.flaticon.com/" title="Flaticon">www.flaticon.com</a>.

Componentes de Web Scraping. Fonte: o autor. Ícones feitos por Nikita Golubev disponíveis no www.flaticon.com.

Web API

Uma web API é uma interface programática para um sistema definido de mensagens requisição-resposta, tipicamente expresso em JSON ou XML, que é acessado via internet – mais comumente por meio de um servidor baseado em HTTP.⁵

Web API

API:
- Application Program Interface
- Interface de Programação de Aplicativos.
Disponibilização de dados via Web API é a forma padrão de
1. conferir acesso aos usuários.
2. transferir dados entre aplicações.
Existem API públicas e documentadas (caso 1).
Existem API usadas pelos sites que podem ser exploradas (caso 2).
Esteja seguro quando aos aspectos legais/éticos da atividade.

Algumas Web API

The Open Movie Database.
- A página documenta os parâmetros de consulta.
- É necessário criar um token de acesso.
- Exemplos: Titanic, Batman, Temporada 1 de Game of Thrones.
Earthquake Catalog API.
- Dados sobre eventos sísmicos.
- Não requer conta ou token.
- Documentação da API.
- Eventos sísmicos em 04/05/2018 das 00h às 07h.
Open Weather Map API:
- Usado por aplicações de smartphones e serviços baseados em previsões metereológicas.
- Requer criar conta mas possui plano free e outros.
- Documentação das várias APIs.
- Requer ID da cidade para busca. Consulte a ID.
- Condição climática de Curitiba agora.

Anatomia de documentos XML

Um exemplo de XML

<breakfast_menu>
  <food>
    <name>Belgian Waffles</name>
    <price>$5.95</price>
    <description>
      Two of our famous Belgian Waffles with plenty of real
      maple syrup
    </description>
    <calories>650</calories>
  </food>
  <food>
    <name>Berry-Berry Belgian Waffles</name>
    <price>$8.95</price>
    <description>
      Light Belgian waffles covered with an assortment of
      fresh berries and whipped cream
    </description>
    <calories>900</calories>
  </food>
</breakfast_menu>

https://www.w3schools.com/xml/simple.xml

Documentos XML

XML: eXtensible Markup Language.
Usado para representar dados em diversos formatos.
Tabelas, planilhas, documentos de texto, imagens, mapas, desenhos vetoriais, webpages, redes sociais, estilos de formatação de referências bibliográficas.
É tão genérico que pode representar qualquer tipo de estrutura de dados.
Comum para dados de estrutura hierárquica e/ou com metadados.

Tipos de arquivos XML (dialetos)

HTML (HiperText Markup Language): páginas de internet.
KML (Keyhole Markup Language): informação geográfica tri-dimensional.
CSL (Citation Style Language): referências bibliográficas.
ODF (Open Document Format): documentos de texto, planilha e slides, etc.
SVG (Scalable Vector Graphics): formato de imagens vetoriais.
Epub: publicação/livro eletrônico.

Exemplos de arquivos baseados em XML

Arquivo XML: https://msdn.microsoft.com/en-us/library/ms762271(v=vs.85).aspx.
Polígonos dos Estados BR: http://www.gmapas.com/poligonos-ibge.
Estilo de referência ABNT: http://dl.dropbox.com/u/9905692/links%20do%20site/estilos%20abnt/ABNT_UFPR_2011-Mendeley.csl.
Imagem vetorial: https://upload.wikimedia.org/wikipedia/en/2/22/Heckert_GNU_white.svg.

O essencial

A unidade básica é o elemento ou nó.
O elemento é começa e termina com a tag nomeada.
O par de tags delimita o conteúdo do elemento.
Elementos podem conter elementos \(\rightarrow\) estrutura hierárquica.
Um elemento pode ter atributos do tipo campo = "valor".
A estrutura se assemelha a uma árvore.
Análogo às listas do R e dicionários do Python.
Embora muito verboso, a taxa de compressão é boa.
Web APIs usam XML para expor dados.

Documentos HTML

HTML: HyperText Markup Language.
É baseado em XML.
Função: exibição de conteúdo na WEB.
HTML é uma linguagem de marcação.
As marcações instruem o navegador sobre como exibir o conteúdo.
Os navegadores têm recursos para inspeção do código fonte.
Pressione F12 no navegador para iniciar a inspeção.
Parte do sucesso em WS está na habilidade em inspecionar o código-fonte e as requisições.

Anatomia de documentos JSON

Um exemplo de JSON

{
    "coord": {
        "lon": -49.27, "lat": -25.43
    },
    "main": {
        "temp": 299.64, "pressure": 1020, "humidity": 39,
        "temp_min": 299.15, "temp_max": 300.15
    },
    "wind": {
        "speed": 3.1, "deg": 340
    },
    "clouds": {
        "all": 40
    },
    "dt": 1525453200,
    "id": 6322752,
    "name": "Curitiba",
    "cod": 200
}

Open Weather Map - Curitiba.

Documentos JSON

JSON: JavaScript Oriented Notation.
Originou de um ramo da sintaxe JavaScript.
É simples, leve e não verboso.
Empregado em: Web API e bancos de dados NoSQL documentais.
Tipos primitivos de dados: lógico, númerico, string e nulo.
Containers para coleção de dados: array e lista.
Tem flexibilidade para representar estruturas complexas de dados.
Não tem campos de atributos para metadados.

Linguagem de consulta para XML

XPath

É uma linguagem de consulta (aponta/extrai) para documentos XML/HTML.
É um padrão do World Wide Web Consortium (W3C).
Especifica caminhos pelos nós e ramos da árvore (DOM)
Uma expressão XPath retorna o conteúdo que bate com o caminho descrito.
Em alguns aspectos, se assemelha à Expressões Regulares.
Folhas de cola (cheat sheet)

Até aqui…

Dados na WEB estão em:
- API: formatos XML e JSON.
- Páginas: formato HTML.
Estrutura de dados hierárquica.
Consulta baseada na inspeção do código fonte.
Importante: aspectos da requisição cliente-servidor.

Requisições

Protocolos de comunicação

Comunição na WEB usa protocolos nos bastidores baseados em
- TCP: transmission control protocol.
- IP: internet protocol.
- TCP/IP: cuidam da transferência de dados entre computadores pela rede.
Existem protocolos TCP/IP específicos.
- HTTP: hypertext transfer protocol.
- FTP: file transfer protocol.
- POP: post office protocol.
- SMTP: simple mail transfer protocol .
- IMAP: internet message access protocol.
Eles definem padrões de comunicação cliente-servidor sobre tarefas específicas.

HTTP essencial

HTTP parece simples mas na realidade é muito flexível e amplamente utilizado.
E capaz de transferir, reter ou enviar praticamente qualquer tipo de informação.
A comunicação mais simples é o cliente fazer requisições (por URL) e o servidor atendê-las (enviando a página/arquivo).
As ferramentas de desenvolvimento do navegador (tecla F12, aba Network) serão úteis para monitorar e detalhar os processos gerados pelas requisições.

Fluxo da comunicação

O nagegador é o cliente HTTP (faz requisições).
Uma requisição por URL solicita ao servidor de DNS (domain name service) quem é o IP que responde pelo domínio da URL (a URI).
Ao saber o IP, o cliente envia requisões por HTTP para o servidor.
O servidor responde as requições HTTP enviado o conteúdo solicitado (página, imagem, arquivo, etc).

Ilustração da comunicação cliente-servidor por HTTP.

Selenium Webdriver

Selenium Webdriver (SWD).
Controle programático de um navegador web.
Envia instruções para o navegador e retém os resultados.
Instruções podem ser:
- Um clique de mouse sobre um botão ou hyperlink.
- Rolar/atualizar/voltar a página
- Preencher e submeter um formulário e autenticar
- Fazer download de um arquivo.
O SWD abre o navegador e guia/controla ele como se fosse um usuário.
Projeto: http://www.seleniumhq.org/projects/webdriver/.
Documentação: http://www.seleniumhq.org/docs/.
Tutorial: http://toolsqa.com/selenium-tutorial/.

Recursos em R e Python

Ferramentas para Web Scraping

Recursos em R e Python mais utilizados para web scraping. Existem outras bibliotecas acessórias mas que não foram incluídas. Fonte: o autor.

Recursos em baixo nível

libxml2: parser de XML/HTML escrita em C.
libcurl: biblioteca de transferência de arquivos multiprotocolos. Faz requisições HTTP e outras. É escrita em C.
Selenium Web Driver: interface programática para controle de nevagadores escrita em Java.

Recursos em R para WS

O kit "Duncan Temple Lang".
- XML: faz processamento de arquivos XML/HTML e é interface para libxml2.
- RCurl: é interface para libcurl.
- Surgiram primeiro (2000 e 2004). Extensamente testadas.
O kit "Hadley Wickham".
- xml2: é interface mais leve e consistente para a libxml2.
- httr: é interface mais leve e consistente para a libcurl.
- rvest: escrita sobre a httr e xml2 para facilitar tarefas de WS.
- Implementações recentes (2015, 2012 e 2014). Populares. Mais consistentes.
Os outros pacotes.
- jsonlite: parse de documentos JSON (funções internas em C).
- RSelenium: interface R para usar o Selenium Web Driver.
- Rcrawler: web crawling com execução em paralelo e várias funcionalidades.
Task View de Web Technologies and Services.

Recursos em Python para WS

urllib3: cliente HTTP para Python.
httplib2: outro cliente HTTP para Python.
pycurl: cliente HTTP via interface com a libcurl.
requests: módulo mais alto nível escrito sobre a urllib3.
lxml: interface para a libxml2.
beatifulsoup4: faz processamento de arquivos HTML com interface pythonica para manipulação. Acomoda parsers da lxml e html5lib.
json: módulo para trabalhar com conteúdo JSON.
scrapy: uma estrutura para trabalhar com web crawling.

Aplicações de Web Scraping com R e Python

http://leg.ufpr.br/~walmes/ensino/web-scraping/

Contém:

Site em construção.
Scripts em R e Python.
Slides.