Text Mining: diferenças entre revisões
mSem resumo de edição |
(WIP (by SublimeText.Mediawiker)) |
||
Linha 20: | Linha 20: | ||
=== Refinação do Texto === | === Refinação do Texto === | ||
Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo: | |||
FIGURA 1: Framework do text mining (Adaptado de Tan ''et al.''<ref name="Tan1999"/>). | |||
As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comumente utilizados para representar o texto: | |||
* Elementos ao nível de superfície: captura informações sobre uma palavra. Por exemplo, nomes próprios normalmente começam com uma letra maiúscula; | |||
* Representação baseada em vetor: a representação de texto mais comumente utilizada em texto mining é a abordagem de saco de palavras (''bag of words'' - BOW). A representação BOW também se encaixa bem em métodos de análise que requerem uma medida de similaridade entre documentos (como clustering); | |||
* Representação de conceito: Uma boa representação de texto deve resolver sinonímias (quando diferentes palavras têm o mesmo significado) e polissemia (quando a mesma palavra tem significados diferentes). A Biblioteca Nacional de Medicina dos Estados Unidos da América (NLM) desenvolveu o Sistema de Linguagem Médica Única (UMLS). Similarmente, um conceito pode ser rastreado até o vocabulário de origem e os termos são mapeados para um ou mais conceitos a níveis mais elevados chamados de tipos semânticos<ref name="Aronson2001">Aronson a R: Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. Proc AMIA Symp 2001:17–21.</ref>, que podem ser utilizados para resolver a polissemia. | |||
=== Destilação do Conhecimento === | === Destilação do Conhecimento === |
Revisão das 10h15min de 23 de março de 2016
Text Mining | |
---|---|
Área(s) de Atuação | Extração de conhecimento de dados |
Entidade(s) Criadora(s) | |
Entidade(s) Gestora(s) | |
Data de Lançamento |
Introdução
Embora possa ser tentador comparar o termo "text mining" com data mining, data mining é apenas um dos passos dentro do processo de descoberta de conhecimento. O text mining assemelha-se mais ao processo de descoberta de conhecimento como um todo, englobando os passos de seleção, pré-processamento, transformação, data mining, interpretação e avaliação[1]. É portanto uma tarefa muito mais complexa que o data mining, pois envolve lidar com dados que são inerentemente não estruturados e difusos[2].
Blake[1] define o text mining como a obtenção de padrões novos, interessantes e compreensíveis de uma coleção de texto, enquanto que Feldman[3] define de uma forma mais semelhante a Recuperação de Informação, onde o objetivo é diferenciar documentos relevantes de documentos irrelevantes. Alguns autores sugerem que o text mining consiste em dois passos: estruturar a informação textual e permitir a descoberta de conhecimento[4][5].
Acredita-se que cerca de 80% da informação relevante na área dos negócios origina-se de forma não estruturada, principalmente texto[6]. Na área da saúde, estima-se que 50% da informação que descreve um paciente durante uma terapia é guardada de forma não estruturada como texto livre[7].
O surgimento de análise de texto na sua forma atual deriva de uma reorientação da investigação nos finais de 1990 do desenvolvimento de algoritmos para aplicações, como descrito pelo Prof Marti A. Hearst o seu artigo "Untangling Text Data Mining"[8].
Processo de Text Mining
Enquanto o data mining é aplicado tradicionalmente em coleções de dados "estruturados", o text mining ou text data mining é a aplicação de técnicas de data mining em coleções de texto "não estruturados" ou "semi-estruturados". O processo de text mining tipicamente envolve o uso de técnicas de processamento de linguagem natural (NLP) para se extrair dados estruturados de uma narrativa estruturada[9].
O text mining inicia por extrair factos e eventos de fontes de texto, permitindo a formação de hipóteses que são depois exploradas por métodos tradicionais de análise de dados[10]. Ele pode ser dividido em duas etapas principais: Refinação de Texto que transforma o texto livre em um formato intermediário, tal como um gráfico conceptual (semi-estruturado) ou dados relacionados (estruturado), e a Destilação do Conhecimento, que deduz padrões ou conhecimento a partir desta forma intermediária. O formato intermediário pode ser baseado em documentos, em que cada entidade representa um documento, ou baseado em conceitos, em que cada entidade representa um objeto ou conceito de interesse[2].
Refinação do Texto
Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo:
FIGURA 1: Framework do text mining (Adaptado de Tan et al.[2]).
As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comumente utilizados para representar o texto:
- Elementos ao nível de superfície: captura informações sobre uma palavra. Por exemplo, nomes próprios normalmente começam com uma letra maiúscula;
- Representação baseada em vetor: a representação de texto mais comumente utilizada em texto mining é a abordagem de saco de palavras (bag of words - BOW). A representação BOW também se encaixa bem em métodos de análise que requerem uma medida de similaridade entre documentos (como clustering);
- Representação de conceito: Uma boa representação de texto deve resolver sinonímias (quando diferentes palavras têm o mesmo significado) e polissemia (quando a mesma palavra tem significados diferentes). A Biblioteca Nacional de Medicina dos Estados Unidos da América (NLM) desenvolveu o Sistema de Linguagem Médica Única (UMLS). Similarmente, um conceito pode ser rastreado até o vocabulário de origem e os termos são mapeados para um ou mais conceitos a níveis mais elevados chamados de tipos semânticos[11], que podem ser utilizados para resolver a polissemia.
Destilação do Conhecimento
Text Mining na Saúde
Referências
- ↑ 1,0 1,1 Blake C: Text mining. Annu Rev Inf Sci Technol 2011, 45:121–155.
- ↑ 2,0 2,1 2,2 Tan A-H: Text Mining: The state of the art and the challenges. Proc PAKDD 1999 Work Knowl Disocovery from Adv Databases 1999, 8:65–70.
- ↑ Feldman R: Mining unstructured data. In Tutorial notes of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’99. New York, New York, USA: ACM Press; 1999:182–236.
- ↑ Liddy E D: Bulletin Aug/Sept 2000: Interview with Gayle Curtis, Modem Media [1]
- ↑ Nahm UY, Mooney RJ: Using Information Extraction to Aid the Discovery of Prediction Rules from Text. In Proceedings of the KDD-2000 Workshop on Text Mining; 2000:51–58.
- ↑ Grimes S: Unstructured data and the 80 percent rule. Carabridge Bridg 2008:1–2.
- ↑ Sittig DF, Wright A, Osheroff J a, Middleton B, Teich JM, Ash JS, Campbell E, Bates DW: Grand challenges in clinical decision support. J Biomed Inform 2008, 41:387–92.
- ↑ Hearst M a.: Untangling text data mining. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics -. Morristown, NJ, USA: Association for Computational Linguistics; 1999:3–10.
- ↑ Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB: Frontiers of biomedical text mining: current progress. Brief Bioinform 2007, 8:358–75.
- ↑ Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.
- ↑ Aronson a R: Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. Proc AMIA Symp 2001:17–21.