Text Mining: diferenças entre revisões

Fonte: aprendis
Saltar para a navegaçãoSaltar para a pesquisa
(Refinação do Texto (by SublimeText.Mediawiker))
mSem resumo de edição
Linha 45: Linha 45:
* '''Palavras frequentes (''stop words''):''' termos que ocorrem com freqüência no texto, mas têm pouco poder discriminatório como determinantes, preposições, etc.
* '''Palavras frequentes (''stop words''):''' termos que ocorrem com freqüência no texto, mas têm pouco poder discriminatório como determinantes, preposições, etc.
* '''Poda de frequência:''' a remoção de palavras que aparecem em menos de n documentos (onde N é geralmente em torno de 5) ou mais do que m vezes (onde m é geralmente uma percentagem do número de documentos).
* '''Poda de frequência:''' a remoção de palavras que aparecem em menos de n documentos (onde N é geralmente em torno de 5) ou mais do que m vezes (onde m é geralmente uma percentagem do número de documentos).
* Indexação semântica latente: é uma técnica estatística que, dada uma matriz de documentos e termos, gera uma série de vetores que capturam a variância dentro da matriz original<ref name="Deerwester1990">Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R: Indexing by latent semantic analysis. J Am Soc Inf Sci 1990, 41:391–407.</ref>.
* '''Indexação semântica latente:''' é uma técnica estatística que, dada uma matriz de documentos e termos, gera uma série de vetores que capturam a variância dentro da matriz original<ref name="Deerwester1990">Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R: Indexing by latent semantic analysis. J Am Soc Inf Sci 1990, 41:391–407.</ref>.


=== Destilação do Conhecimento ===
=== Destilação do Conhecimento ===

Revisão das 10h51min de 23 de março de 2016

Text Mining
Área(s) de Atuação Extração de conhecimento de dados
Entidade(s) Criadora(s)
Entidade(s) Gestora(s)
Data de Lançamento


Introdução

Embora possa ser tentador comparar o termo "text mining" com data mining, data mining é apenas um dos passos dentro do processo de descoberta de conhecimento. O text mining assemelha-se mais ao processo de descoberta de conhecimento como um todo, englobando os passos de seleção, pré-processamento, transformação, data mining, interpretação e avaliação[1]. É portanto uma tarefa muito mais complexa que o data mining, pois envolve lidar com dados que são inerentemente não estruturados e difusos[2].

Blake[1] define o text mining como a obtenção de padrões novos, interessantes e compreensíveis de uma coleção de texto, enquanto que Feldman[3] define de uma forma mais semelhante a Recuperação de Informação, onde o objetivo é diferenciar documentos relevantes de documentos irrelevantes. Alguns autores sugerem que o text mining consiste em dois passos: estruturar a informação textual e permitir a descoberta de conhecimento[4][5].

Acredita-se que cerca de 80% da informação relevante na área dos negócios origina-se de forma não estruturada, principalmente texto[6]. Na área da saúde, estima-se que 50% da informação que descreve um paciente durante uma terapia é guardada de forma não estruturada como texto livre[7].

O surgimento de análise de texto na sua forma atual deriva de uma reorientação da investigação nos finais de 1990 do desenvolvimento de algoritmos para aplicações, como descrito pelo Prof Marti A. Hearst o seu artigo "Untangling Text Data Mining"[8].

Processo de Text Mining

Enquanto o data mining é aplicado tradicionalmente em coleções de dados "estruturados", o text mining ou text data mining é a aplicação de técnicas de data mining em coleções de texto "não estruturados" ou "semi-estruturados". O processo de text mining tipicamente envolve o uso de técnicas de processamento de linguagem natural (NLP) para se extrair dados estruturados de uma narrativa estruturada[9].

O text mining inicia por extrair factos e eventos de fontes de texto, permitindo a formação de hipóteses que são depois exploradas por métodos tradicionais de análise de dados[10]. Ele pode ser dividido em duas etapas principais: Refinação de Texto que transforma o texto livre em um formato intermediário, tal como um gráfico conceptual (semi-estruturado) ou dados relacionados (estruturado), e a Destilação do Conhecimento, que deduz padrões ou conhecimento a partir desta forma intermediária. O formato intermediário pode ser baseado em documentos, em que cada entidade representa um documento, ou baseado em conceitos, em que cada entidade representa um objeto ou conceito de interesse[2].

Refinação do Texto

Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo:

FIGURA 1: Framework do text mining (Adaptado de Tan et al.[2]).

As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comumente utilizados para representar o texto:

  • Elementos ao nível de superfície: captura informações sobre uma palavra. Por exemplo, nomes próprios normalmente começam com uma letra maiúscula;
  • Representação baseada em vetor: a representação de texto mais comumente utilizada em texto mining é a abordagem de saco de palavras (bag of words - BOW). A representação BOW também se encaixa bem em métodos de análise que requerem uma medida de similaridade entre documentos (como clustering);
  • Representação de conceito: Uma boa representação de texto deve resolver sinonímias (quando diferentes palavras têm o mesmo significado) e polissemia (quando a mesma palavra tem significados diferentes). A Biblioteca Nacional de Medicina dos Estados Unidos da América (NLM) desenvolveu o Sistema de Linguagem Médica Única (UMLS). Similarmente, um conceito pode ser rastreado até o vocabulário de origem e os termos são mapeados para um ou mais conceitos a níveis mais elevados chamados de tipos semânticos[11], que podem ser utilizados para resolver a polissemia.

De modo a representar um documento, a informação deve ser corretamente extraída a partir do documento. Várias estratégias têm sido utilizadas para realizar essa tarefa, e geralmente utiliza abordagens de aprendizagem de maquina (machine learning), baseado em conhecimento (knowledge-based approach) ou ambos (TEG[12]).

Extração de Informação (IE), é talvez atualmente a técnica mais utilizada em operações de pré-processamento em text mining. Sem as técnicas de IE, os sistemas de text mining teriam capacidades de descoberta de conhecimento muito mais limitadas. Mesmo os sistemas que não têm uma boa performance (precision e recall) podem ser de grande valor[10]. A seguir lista-se os métodos mais utilizados:

  • Resolução de co-referência: o objetivo da resolução de co-referência é unificar todas as referências de texto para a mesma entidade (também chamada de referência), em que uma entidade é tipicamente um nome próprio, mas também podem ser relações verbais (ver Day et al.[13] para uma definição de anotações de co-referência utilizadas na tarefa de co-referência MUC-7).
  • Abreviaturas: as abreviaturas são um caso especial de resolução de co-referência e são particularmente importantes quando se trabalha com literatura científica. Um estudo descobriu que 80% das abreviaturas no UMLS eram ambíguas[14].
  • Negação: a negação recebeu uma atenção especial nos registos médicos onde a pseudo negação, como "nenhuma mudança" e "não causam", pode ter um enorme impacto sobre a qualidade dos padrões produzidos.
  • Sintaxe: em contraste com as representações que incidem sobre a semântica, uma representação sintática captura as informações ao nível da sentença. Uma área onde a sintaxe pode ser útil é no resumo de documentos e síntese de informações.

Para se reduzir o ruído no texto original e, assim, proporcionar melhores padrões, pode-se utilizar técnicas de redução de dimensionalidade:

  • Radicalização (ou lematização): a radicalização tenta identificar a raiz de um termo. Por exemplo, os termos "diferem", "diferentes" e "diferença" seriam todos representados como "difer" após ser aplicada a radicalização.
  • Palavras frequentes (stop words): termos que ocorrem com freqüência no texto, mas têm pouco poder discriminatório como determinantes, preposições, etc.
  • Poda de frequência: a remoção de palavras que aparecem em menos de n documentos (onde N é geralmente em torno de 5) ou mais do que m vezes (onde m é geralmente uma percentagem do número de documentos).
  • Indexação semântica latente: é uma técnica estatística que, dada uma matriz de documentos e termos, gera uma série de vetores que capturam a variância dentro da matriz original[15].

Destilação do Conhecimento

Text Mining na Saúde

Referências

  1. 1,0 1,1 Blake C: Text mining. Annu Rev Inf Sci Technol 2011, 45:121–155.
  2. 2,0 2,1 2,2 Tan A-H: Text Mining: The state of the art and the challenges. Proc PAKDD 1999 Work Knowl Disocovery from Adv Databases 1999, 8:65–70.
  3. Feldman R: Mining unstructured data. In Tutorial notes of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’99. New York, New York, USA: ACM Press; 1999:182–236.
  4. Liddy E D: Bulletin Aug/Sept 2000: Interview with Gayle Curtis, Modem Media [1]
  5. Nahm UY, Mooney RJ: Using Information Extraction to Aid the Discovery of Prediction Rules from Text. In Proceedings of the KDD-2000 Workshop on Text Mining; 2000:51–58.
  6. Grimes S: Unstructured data and the 80 percent rule. Carabridge Bridg 2008:1–2.
  7. Sittig DF, Wright A, Osheroff J a, Middleton B, Teich JM, Ash JS, Campbell E, Bates DW: Grand challenges in clinical decision support. J Biomed Inform 2008, 41:387–92.
  8. Hearst M a.: Untangling text data mining. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics -. Morristown, NJ, USA: Association for Computational Linguistics; 1999:3–10.
  9. Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB: Frontiers of biomedical text mining: current progress. Brief Bioinform 2007, 8:358–75.
  10. 10,0 10,1 Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.
  11. Aronson a R: Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. Proc AMIA Symp 2001:17–21.
  12. Feldman R, Rosenfeld B, Fresko M: TEG—a hybrid approach to information extraction. Knowl Inf Syst 2006, 9:1–18.
  13. Day D, Aberdeen J, Hirschman L, Kozierok R, Robinson P, Vilain M: Mixed-initiative development of language processing systems. In Proceedings of the fifth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics; 1997:348–355.
  14. Liu H, Aronson AR, Friedman C: A study of abbreviations in MEDLINE abstracts. Proc AMIA Symp 2002:464–8.
  15. Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R: Indexing by latent semantic analysis. J Am Soc Inf Sci 1990, 41:391–407.