Text Mining: diferenças entre revisões
(Destilação do Conhecimento (by SublimeText.Mediawiker)) |
|||
Linha 21: | Linha 21: | ||
=== Refinação do Texto === | === Refinação do Texto === | ||
Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo | Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo. | ||
[[Ficheiro:Bischoff text mining framework.png|thumb|right|Figura 1: Framework do text mining (Adaptado de Tan ''et al.''<ref name="Tan1999"/>).]] | |||
As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comumente utilizados para representar o texto: | As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comumente utilizados para representar o texto: |
Revisão das 14h19min de 23 de março de 2016
Text Mining | |
---|---|
Área(s) de Atuação | Extração de conhecimento de dados |
Entidade(s) Criadora(s) | |
Entidade(s) Gestora(s) | |
Data de Lançamento |
Introdução
Embora possa ser tentador comparar o termo "text mining" com data mining, data mining é apenas um dos passos dentro do processo de descoberta de conhecimento. O text mining assemelha-se mais ao processo de descoberta de conhecimento como um todo, englobando os passos de seleção, pré-processamento, transformação, data mining, interpretação e avaliação[1]. É portanto uma tarefa muito mais complexa que o data mining, pois envolve lidar com dados que são inerentemente não estruturados e difusos[2].
Blake[1] define o text mining como a obtenção de padrões novos, interessantes e compreensíveis de uma coleção de texto, enquanto que Feldman[3] define de uma forma mais semelhante a Recuperação de Informação, onde o objetivo é diferenciar documentos relevantes de documentos irrelevantes. Alguns autores sugerem que o text mining consiste em dois passos: estruturar a informação textual e permitir a descoberta de conhecimento[4][5].
Acredita-se que cerca de 80% da informação relevante na área dos negócios origina-se de forma não estruturada, principalmente texto[6]. Na área da saúde, estima-se que 50% da informação que descreve um paciente durante uma terapia é guardada de forma não estruturada como texto livre[7].
O surgimento de análise de texto na sua forma atual deriva de uma reorientação da investigação nos finais de 1990 do desenvolvimento de algoritmos para aplicações, como descrito pelo Prof Marti A. Hearst o seu artigo "Untangling Text Data Mining"[8].
Processo de Text Mining
Enquanto o data mining é aplicado tradicionalmente em coleções de dados "estruturados", o text mining ou text data mining é a aplicação de técnicas de data mining em coleções de texto "não estruturados" ou "semi-estruturados". O processo de text mining tipicamente envolve o uso de técnicas de processamento de linguagem natural (NLP) para se extrair dados estruturados de uma narrativa estruturada[9].
O text mining inicia por extrair factos e eventos de fontes de texto, permitindo a formação de hipóteses que são depois exploradas por métodos tradicionais de análise de dados[10]. Ele pode ser dividido em duas etapas principais: Refinação de Texto que transforma o texto livre em um formato intermediário, tal como um gráfico conceptual (semi-estruturado) ou dados relacionados (estruturado), e a Destilação do Conhecimento, que deduz padrões ou conhecimento a partir desta forma intermediária. O formato intermediário pode ser baseado em documentos, em que cada entidade representa um documento, ou baseado em conceitos, em que cada entidade representa um objeto ou conceito de interesse[2].
Refinação do Texto
Consiste em transformar texto livre em um formato intermediário, que pode ser baseado em documento ou baseado em conceitos. Na Figura 1 temos uma visão global do processo.
As decisões sobre a forma de representar os documentos podem ter um impacto significativo na qualidade dos padrões posteriormente identificados. Existem alguns métodos que são mais comumente utilizados para representar o texto:
- Elementos ao nível de superfície: captura informações sobre uma palavra. Por exemplo, nomes próprios normalmente começam com uma letra maiúscula;
- Representação baseada em vetor: a representação de texto mais comumente utilizada em texto mining é a abordagem de saco de palavras (bag of words - BOW). A representação BOW também se encaixa bem em métodos de análise que requerem uma medida de similaridade entre documentos (como clustering);
- Representação de conceito: Uma boa representação de texto deve resolver sinonímias (quando diferentes palavras têm o mesmo significado) e polissemia (quando a mesma palavra tem significados diferentes). A Biblioteca Nacional de Medicina dos Estados Unidos da América (NLM) desenvolveu o Sistema de Linguagem Médica Única (UMLS). Similarmente, um conceito pode ser rastreado até o vocabulário de origem e os termos são mapeados para um ou mais conceitos a níveis mais elevados chamados de tipos semânticos[11], que podem ser utilizados para resolver a polissemia.
De modo a representar um documento, a informação deve ser corretamente extraída a partir do documento. Várias estratégias têm sido utilizadas para realizar essa tarefa, e geralmente utiliza abordagens de aprendizagem de maquina (machine learning), baseado em conhecimento (knowledge-based approach) ou ambos (TEG[12]).
Extração de Informação (IE), é talvez atualmente a técnica mais utilizada em operações de pré-processamento em text mining. Sem as técnicas de IE, os sistemas de text mining teriam capacidades de descoberta de conhecimento muito mais limitadas. Mesmo os sistemas que não têm uma boa performance (precision e recall) podem ser de grande valor[10]. A seguir lista-se os métodos mais utilizados:
- Resolução de co-referência: o objetivo da resolução de co-referência é unificar todas as referências de texto para a mesma entidade (também chamada de referência), em que uma entidade é tipicamente um nome próprio, mas também podem ser relações verbais (ver Day et al.[13] para uma definição de anotações de co-referência utilizadas na tarefa de co-referência MUC-7).
- Abreviaturas: as abreviaturas são um caso especial de resolução de co-referência e são particularmente importantes quando se trabalha com literatura científica. Um estudo descobriu que 80% das abreviaturas no UMLS eram ambíguas[14].
- Negação: a negação recebeu uma atenção especial nos registos médicos onde a pseudo negação, como "nenhuma mudança" e "não causam", pode ter um enorme impacto sobre a qualidade dos padrões produzidos.
- Sintaxe: em contraste com as representações que incidem sobre a semântica, uma representação sintática captura as informações ao nível da sentença. Uma área onde a sintaxe pode ser útil é no resumo de documentos e síntese de informações.
Para se reduzir o ruído no texto original e, assim, proporcionar melhores padrões, pode-se utilizar técnicas de redução de dimensionalidade:
- Radicalização (ou lematização): a radicalização tenta identificar a raiz de um termo. Por exemplo, os termos "diferem", "diferentes" e "diferença" seriam todos representados como "difer" após ser aplicada a radicalização.
- Palavras frequentes (stop words): termos que ocorrem com freqüência no texto, mas têm pouco poder discriminatório como determinantes, preposições, etc.
- Poda de frequência: a remoção de palavras que aparecem em menos de n documentos (onde N é geralmente em torno de 5) ou mais do que m vezes (onde m é geralmente uma percentagem do número de documentos).
- Indexação semântica latente: é uma técnica estatística que, dada uma matriz de documentos e termos, gera uma série de vetores que capturam a variância dentro da matriz original[15].
Destilação do Conhecimento
Após efetuada a representação de texto e a redução de dimensionalidade, o pesquisador analisa a coleção de textos. Abaixo verifica-se alguns métodos de análise independente de domínio que têm sido desenvolvidos para conjuntos de dados não-textuais:
- Classificação (ou categorização): um algoritmo de classificação visa criar um modelo (o classificador) que mapeia com precisão, a partir de um conjunto de elementos usados para representar cada documento, para uma classe existente.
- Agrupamento (clustering): o objetivo de um algoritmo de clustering é agrupar documentos de tal forma que cada grupo tenha um alto grau de similaridade intra-classe e baixo grau de similaridade inter-classe. Em contraste com a classificação, as classes são desconhecidas.
- Regras de associação: as regras de associação capturam co-ocorrências entre termos de uma coleção de documentos. Tais regras são muitas vezes geradas usando o algoritmo Apriori[16], que apresenta padrões para o usuário na forma: A?B, onde A e B são conjuntos de termos.
Todos os métodos anteriores de transformação de dados e análise deve ter um propósito. A seguir exemplifica-se alguns dos problemas mais comuns:
- Extração de relação: o objetivo é identificar as relações entre os dados recolhidos. Por exemplo, as relações gene-proteína, detecção de hipônimos, relações de conceito como "consiste em", "feito de", etc.
- Detectar subjetividade:em linguagem natural define-se subjetividade como "aspectos da linguagem utilizados para expressar opiniões, avaliações e especulações". Detectar subjetividade pode ser útil para classificações automáticas em diversos contextos como política, avaliação de produtos, opinião pública, etc.
- Coesão textual (Textual Entailment): em NLP, a coesão textual é uma relação direcional entre dois fragmentos de texto. Um dos objetivos é identificar se uma dada hipótese (H) está relacionada com uma dada expressão (T). A hipótese geralmente tem a forma de uma sentença única, e o texto pode ser de uma ou mais sentenças.
- Sumarização: desde o final dos anos sessenta, procuram-se construir sistemas que geram automaticamente um resumo de um único documento através da seleção de texto já existente ou abstraindo o texto dos documentos originais, transformando e gerando novo texto.
- Síntese de informação: embora a sumarização de multiplos documentos seja inerentemente uma atividade de síntese, as pesquisas sobre esta questão tem sido em torno do processo de revisão sistemática. O principal objetivo de uma meta-análise é equilibrar evidências contraditórias e redundantes na literatura científica.
- Descoberta de conhecimento baseada em literatura: semelhantemente à síntese de informação, a sobrecarga de informação na literatura biomédica levou ao desenvolvimento da descoberta de conhecimento baseada em literatura, que é um processo de pesquisa sistematica da literatura existente para identificar novos conhecimentos.
Text Mining na Saúde
Referências
- ↑ 1,0 1,1 Blake C: Text mining. Annu Rev Inf Sci Technol 2011, 45:121–155.
- ↑ 2,0 2,1 2,2 Tan A-H: Text Mining: The state of the art and the challenges. Proc PAKDD 1999 Work Knowl Disocovery from Adv Databases 1999, 8:65–70.
- ↑ Feldman R: Mining unstructured data. In Tutorial notes of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’99. New York, New York, USA: ACM Press; 1999:182–236.
- ↑ Liddy E D: Bulletin Aug/Sept 2000: Interview with Gayle Curtis, Modem Media [1]
- ↑ Nahm UY, Mooney RJ: Using Information Extraction to Aid the Discovery of Prediction Rules from Text. In Proceedings of the KDD-2000 Workshop on Text Mining; 2000:51–58.
- ↑ Grimes S: Unstructured data and the 80 percent rule. Carabridge Bridg 2008:1–2.
- ↑ Sittig DF, Wright A, Osheroff J a, Middleton B, Teich JM, Ash JS, Campbell E, Bates DW: Grand challenges in clinical decision support. J Biomed Inform 2008, 41:387–92.
- ↑ Hearst M a.: Untangling text data mining. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics -. Morristown, NJ, USA: Association for Computational Linguistics; 1999:3–10.
- ↑ Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB: Frontiers of biomedical text mining: current progress. Brief Bioinform 2007, 8:358–75.
- ↑ 10,0 10,1 Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.
- ↑ Aronson a R: Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. Proc AMIA Symp 2001:17–21.
- ↑ Feldman R, Rosenfeld B, Fresko M: TEG—a hybrid approach to information extraction. Knowl Inf Syst 2006, 9:1–18.
- ↑ Day D, Aberdeen J, Hirschman L, Kozierok R, Robinson P, Vilain M: Mixed-initiative development of language processing systems. In Proceedings of the fifth conference on Applied natural language processing -. Morristown, NJ, USA: Association for Computational Linguistics; 1997:348–355.
- ↑ Liu H, Aronson AR, Friedman C: A study of abbreviations in MEDLINE abstracts. Proc AMIA Symp 2002:464–8.
- ↑ Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R: Indexing by latent semantic analysis. J Am Soc Inf Sci 1990, 41:391–407.
- ↑ Agrawal R, Mannila H, Srikant R, Toivonen H, Verkamo a I: Fast discovery of association rules. Advances in knowledge discovery and data mining 1996:307–328.