Este livro está em Revisão aberta. Suas impressões são importantes para torná-lo melhor para você e para outros estudantes. Você pode anotar alguns textos selecionando-os com o cursor e clicando no menu popup. Você também pode ler anotações de outras pessoas: Clique no canto superior direito da página

2.6 Organização dos dados e mineração dos textos

A fim de deixar os dados prontos para análise, é necessário organizá-los e limpá-los, ou seja, excluir informações excessivas e converter as variáveis para o formato adequado, ou seja, números, caracteres, datas e fatores.

Para extrair informações relevantes do texto, utilizamos técnicas de processamento de linguagem natural (NLP, na sigla em inglês), sendo a mais comum delas as expressões regulares ou regex.