- Até agora os tokens (termos) foram palavras.
- "Sérgio Moro" é representado em mais de uma dimensão.
- "Universidade Federal do Paraná" idem.
- Isso aumenta desnecessariamente a dimensão do espaço vetor.
- Apresentar modelos probabilisticos de linguagem.
- Construir \(n\)-gramas no R.