Text Mining

Fonte: aprendis
Revisão em 16h51min de 22 de março de 2016 por Franzbischoff (discussão | contribs)
Saltar para a navegaçãoSaltar para a pesquisa
Text Mining
Área(s) de Atuação Extração de conhecimento de dados
Entidade(s) Criadora(s)
Entidade(s) Gestora(s)
Data de Lançamento


Introdução

Embora possa ser tentador comparar o termo "text mining" com data mining, data mining é apenas um dos passos dentro do processo de descoberta de conhecimento. O text mining assemelha-se mais ao processo de descoberta de conhecimento como um todo, englobando os passos de seleção, pré-processamento, transformação, data mining, interpretação e avaliação[1]. É portanto uma tarefa muito mais complexa que o data mining, pois envolve lidar com dados que são inerentemente não estruturados e difusos[2].

Blake[1] define o text mining como a obtenção de padrões novos, interessantes e compreensíveis de uma coleção de texto, enquanto que Feldman[3] define de uma forma mais semelhante a Recuperação de Informação, onde o objetivo é diferenciar documentos relevantes de documentos irrelevantes. Alguns autores sugerem que o text mining consiste em dois passos: estruturar a informação textual e permitir a descoberta de conhecimento[4][5]

Acredita-se que cerca de 80% da informação relevante na área dos negócios origina-se de forma não estruturada, principalmente texto[6]. Na área da saúde, estima-se que 50% da informação que descreve um paciente durante uma terapia é guardada de forma não estruturada como texto livre[7].

O surgimento de análise de texto na sua forma atual deriva de uma reorientação da investigação nos finais de 1990 do desenvolvimento de algoritmos para aplicações, como descrito pelo Prof Marti A. Hearst o seu artigo "Untangling o Text Data Mining"[8].

Processo de Text Mining

Enquanto o data mining é aplicado tradicionalmente em coleções de dados "estruturados", o text mining ou text data mining é a aplicação de técnicas de data mining em coleções de texto "não estruturados" ou "semi-estruturados". O processo de text mining tipicamente envolve o uso de técnicas de processamento de linguagem natural (NLP) para se extrair dados estruturados de uma narrativa estruturada[9].

O text mining inicia por extrair factos e eventos de fontes de texto, permitindo a formação de hipóteses que são depois exploradas por métodos tradicionais de análise de dados[10]. Ele pode ser dividido em duas etapas principais: Refinação de Texto que transforma o texto livre em um formato intermediário, tal como um gráfico conceptual (semi-estruturado) ou dados relacionados (estruturado), e a Destilação do Conhecimento, que deduz padrões ou conhecimento a partir desta forma intermediária. O formato intermediário pode ser baseado em documentos, em que cada entidade representa um documento, ou baseado em conceitos, em que cada entidade representa um objeto ou conceito de interesse[2].

Refinação do Texto

Destilação do Conhecimento

Text Mining na Saúde

Referências

  1. 1,0 1,1 Blake C: Text mining. Annu Rev Inf Sci Technol 2011, 45:121–155.
  2. 2,0 2,1 Tan A-H: Text Mining: The state of the art and the challenges. Proc PAKDD 1999 Work Knowl Disocovery from Adv Databases 1999, 8:65–70.
  3. Feldman R: Mining unstructured data. In Tutorial notes of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’99. New York, New York, USA: ACM Press; 1999:182–236.
  4. Liddy E D: Bulletin Aug/Sept 2000: Interview with Gayle Curtis, Modem Media [1]
  5. Nahm UY, Mooney RJ: Using Information Extraction to Aid the Discovery of Prediction Rules from Text. In Proceedings of the KDD-2000 Workshop on Text Mining; 2000:51–58.
  6. Grimes S: Unstructured data and the 80 percent rule. Carabridge Bridg 2008:1–2.
  7. Sittig DF, Wright A, Osheroff J a, Middleton B, Teich JM, Ash JS, Campbell E, Bates DW: Grand challenges in clinical decision support. J Biomed Inform 2008, 41:387–92.
  8. Hearst M a.: Untangling text data mining. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics -. Morristown, NJ, USA: Association for Computational Linguistics; 1999:3–10.
  9. Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB: Frontiers of biomedical text mining: current progress. Brief Bioinform 2007, 8:358–75.
  10. Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.