2019-03-28

Text Mining

Definição

Análise de texto é sobre extrair informação.

Text mining é o processo de analisar um texto desestruturado, extrair informação relevante e transformá-la em estruturada de forma que possa ser aproveitada de diversas formas (Hurwitz et al. 2016).

The practice of text mining is aimed at undestanding and applying insights from the most complex analytical processing system in the universe - the human brain - to the analysis of written language.

Motivação e exemplos

Texto e informação

  • Quando lemos um livro, recordamos das sensações mas não da prosa.
  • Tratamos a informação de texto na sociedade assim também.
  • Somos sensores sobre o mundo e registramos o que percebemos com texto.
  • Acredita-se que a informação em texto sobre o mundo hoje é tão rica que as máquinas poderiam dominar o mundo.

Dados de texto são abundantes

Mais exemplos

  • Descoberta de ameaças terroristas.
  • Mapear focos de dengue (UFMG) e demais problemas de saúde pública.
  • Fornecer diagnóstico de doença pelo relato de caso (IBM Watson).
  • Melhorar qualidade de produto pelo relato dos consumidores.
  • Aproveitar conversas transcritas de telemarketing.
  • Registros de call center.
  • Estilo de escrita para aumentar sucesso no desfecho de petições/processos.
  • Classificação de documentos para busca em biblioteca.

Tipos de formato

  • Dados não estruturados = estrutura imprevisível.
Nota fiscal Notícia Tweet
pré estrutura organização coloquial e curto
números e campos língua formal abreviações e hashtags

Abordagens principais

Análise sintática

  • Análise lexical/morfológica: formas da palavra.
  • Análise sintática: estrutura gramátical, criar contexto.
  • Análise semântica: determinar significado, eliminar ambiguidades.
  • Análise do âmbito do discuso: significado além do discurso, inferência.
  • É uma análise complexa que pode determinar: quem, o que, quanto onde e porquê.

Saco de palavras

  • As frases são desfeitas.
  • Cada palavra é um termo.
  • Representa-se quantas vezes cada um ocorre no documento.
  • Estrutura linguistica é ignorada.
  • Apesar de simples, é muito robusta e útil.

Áreas e disciplinas relacionadas

As 7 áreas da mineração de texto

Disciplinas relacionadas

Ferramentas de mineração de texto

Ferramentas online

IBM Watson News Explorer

Softwares comerciais

O que vamos usar

Task Views

Pacotes R

Text mining Web scraping Outros
tm XML d3Network
Rweka rvest leafletR
SnowballC RCurl googleVis
wordcloud jsonlite lattice
topicmodels twitteR latticeExtra
RTextTools Rfacebook ggplot2
lsa Rlinkedin
openNPL
koRpus
tidytext

Complemento importantíssimo

Web scraping

Como extrair ou consumir dados da Web?

  • XML
  • HTML
  • JSON

Referências

Hurwitz, J., A. Nugent, F. Dr. Halper, and M. Kaufman. 2016. Big Data Para Leigos: ALTA BOOKS.