TESTE
Francisco Bischoff |
Marta Martins |
Miguel Duarte |
Resumo
Introdução: Com a disponibilidade dos registos clínicos eletrónicos, verificou-se a necessidade da mineração de texto e de dados usando diversos métodos. Este trabalho tem como objetivo uma revisão na literatura métodos mais utilizados neste domínio, e se possível uma comparação entre eles.
Métodos: Foi realizada uma pesquisa na literatura da PubMed utilizando as palavras chave “registo clínico eletrónico” e “mineração de texto”, sendo incluídos os artigos que utilizam a técnica de mineração de texto em registo clínicos eletrónicos, e excluídos aqueles que utilizaram apenas dados estruturados, não utilizavam aprendizagem de máquina ou não buscavam informações de doenças e diagnósticos.
Resultados: Os registos clínicos eletrónicos abrangem uma vasta gama de informação, verificando nos artigos extraídos que poucos deles satisfaziam os critérios de inclusão. Foi verificado que dos artigos incluídos, grande parte tinha como objetivo a identificação de Fenótipos Computacionais através de algoritmos como o de Campo Aleatório Condicional e Máquina de Vetores de Suporte.
Conclusões:
Palavras-chave: mineração de texto, mineração de dados, algoritmos, diagnósticos, informações de doenças, registos clínicos eletrónicos
Introdução
As últimas décadas foram marcadas por uma crescente disponibilidade de registos clínicos eletrónicos (RCE). Além disso, técnicas de mineração de texto e mineração de dados têm sido intensamente estudadas como uma ferramenta para a descoberta de conhecimento. Várias dessas técnicas têm sido aplicadas para extrair ou interligar as informações de RCE, a fim de melhorar os sistemas de apoio à decisão, encontrar novos padrões ou conhecimento até então desconhecidos. Cada sistema de mineração de texto tem diferentes implementações e metas, por exemplo associações doença-doença, doença-droga, doença-genes, e alguns podem ser melhores para um objetivo, mas não para outros. Compreender as diferentes abordagens para diferentes objetivos é fundamental para garantir os melhores resultados.
O principal objetivo deste estudo é a identificação dos métodos de mineração de texto utilizados na extração de informação sobre doenças e diagnósticos a partir dos RCEs. Os objetivos secundários são comparar as medidas de desempenho destas abordagens.
Métodos
Critérios de inclusão e exclusão
Foram selecionados estudos que comparam o uso de uma técnica de mineração de texto em RCE com um padrão de referência. Foram excluídos estudos que utilizam somente dados estruturados ou semiestruturados (ex.: resultados de laboratórios, documentos previamente anotados), estudos que não utilizam métodos de machine learning e estudos que não tentam extrair informações sobre doenças ou diagnósticos e co-morbilidades. Estudos realizados em idiomas para além do inglês, alemão, espanhol e português não foram considerados.
Fontes e estratégias de busca
A estratégia de busca na literatura foi desenvolvida utilizando o Medical Subject Headings (MeSH) e palavras de texto relacionadas com RCE, mineração de texto e mineração de dados.
A pesquisa não foi limitada por data ou idioma. Um exemplo da consulta efetuada no PUBMED é descrito como se segue: ("text mining"[All Fields] AND ("electronic health records"[MeSH Terms] OR "electronic health records"[All Fields] OR "electronic health record"[All Fields])).
Processo de seleção e obtenção de dados
Os resultados da pesquisa foram inicialmente geridos através do Mendeley, um software gestor de referências, onde foram removidos os duplicados, e depois enviados para o Covidence, uma plataforma online que facilita a colaboração entre os revisores durante os processos de seleção dos estudos, avaliação da qualidade e extração de dados. Os autores desenvolveram e testaram perguntas de triagem e formulários para as avaliações dos artigos com base nos critérios de inclusão e exclusão, tendo sido feito um exercício de calibração para aperfeiçoar as perguntas de triagem.
Os autores analisaram de forma independente os títulos e resumos. Pares de autores analisaram os textos completos dos artigos pré-selecionados. As divergências foram decididas através da discussão, sendo a opinião do terceiro autor utilizada como desempate. Os nomes das revistas, autores e instituições não foram ocultados dos revisores no momento da seleção.
Usando um formulário padronizado no software Covidence, ambos os autores extraíram os dados de forma independente e em duplicado de cada estudo. Para garantir a consistência entre os revisores, foram realizados exercícios de calibração antes de iniciar a avaliação. Os autores resolveram as divergências pela discussão, tendo uma estatística κ de 0,726.
Foram extraídos os seguintes dados dos estudos:
- Fonte dos dados (ex.: notas de admissão, notas de alta);
- Quantidade de dados utilizados nos treinos e testes (ex.: número de episódios de internamento, número de registos dos pacientes);
- Método de validação (ex.: validação cruzada, corpora independentes);
- Algoritmo de Machine Learning (ex.: Naïve Bayes, K-NN; SVM);
- Características de mineração (ex.: processamento de linguagem natural, expressões regulares, saco de palavras)
- Objetivos dos processos de mineração (ex.: fenotipagem, classificação);
- Dados da tabela 2x2, se disponíveis (ex.: verdadeiros positivos, verdadeiros negativos).
- Medidas de desempenho, se disponíveis (ex.: precisão, recall, F1 score).
Resultados
Os resultados da pesquisa de artigos estão apresentados na Figura 1. Dos 53 estudos iniciais, 12 artigos enquadraram nos critérios de inclusão. Todos os artigos forneceram dados suficientes para extrair as medidas de desempenho.
Risco de viés nos estudos incluídos
A avaliação de risco de viés dos 12 estudos incluídos indicam um alto risco de viés em 3 artigos (25%), risco incerto em 3 artigos (25%) e baixo risco em 6 artigos (50%). Os itens de avaliação de risco de viés estão resumidos na Tabela 1.
Métodos de mineração de texto
Nos estudos selecionados, verifica-se que a grande maioria tem como objetivo ou utiliza numa fase intermédia a identificação de Fenótipos Computacionais (ou Definição de Fenótipos através de RCE), os quais se definem como uma condição ou característica clínica, ou um conjunto de atributos clínicos que podem ser determinados através dos dados do RCE e dados auxiliares sem a necessidade de uma revisão ou interpretação por um clínico1. Foram agrupados para fins de análise estudos que utilizavam estes métodos num grupo chamado Fenotipagem.
Alnazzawi et al. utilizaram o processamento de linguagem natural (PLN) com a finalidade de construir um corpus de fenótipos para a identificação de insuficiência cardíaca, publicamente disponível online (http://www.nactem.ac.uk/PhenoCHF/)2. Informações da sintaxe2–5, afixos de palavras2 e etiquetadores morfológicos2,5,6 foram algumas das técnicas utilizadas por alguns dos artigos. Byrd et al. verificou no seu trabalho que a maioria dos critérios de diagnósticos para insuficiência cardíaca eram constituídos por substantivos compostos sendo um ponto importante a identificação de frases que contêm tais substantivos3.
Geralmente após a anotação do texto através do PLN, é realizada uma análise do texto. Byrd et al. utilizou diversas técnicas como coocorrência, desambiguidade, negação, contrafatual, restrições numéricas e de segmento3. Giang et al. utilizou a técnica chamada Similaridade Semântica sob o pressuposto de que duas palavras ou termos que coexistam na mesma frase ou documento possuem um contexto similar, sendo possível assim deduzir a sua distância semântica4,7.
O uso do saco de palavras, embora tenha muitas limitações como a perda da ordem dos elementos e de informações de contexto, ainda tem sido bastante utilizado pela sua simplicidade2,5,6,8. Schuemie et al. além do saco de palavras, utilizou n-gramas como forma de mitigar algumas destas limitações8.
Como forma de redução da dimensionalidade e do “ruído” dos documentos, verifica-se a aplicação de técnicas como remoção de stop words9–11, de palavras que aparecem apenas uma vez9,10, de palavras com menos de 3 letras9,10, stemming11 e associação de palavras8.
Gerdes et al.12 utiliza um software proprietário chamado SAS® Text Miner de forma a realizar PLN, entretanto não fornece mais informações. Enquanto DeShazo et al. utiliza um corpus anotado manualmente13.
Uso de terminologias padronizadas
As técnicas de mineração de texto são muito dependentes dos léxicos, terminologias (ou vocabulário) e ontologias. Um léxico pode ser útil para o mapeamento de conceitos, entretanto as terminologias agrupam termos de um particular domínio de interesse, abordando problemas de sinonímia, polissemia e desambiguidade. As ontologias podem ser representadas de diversas formas, incluindo classes, conceitos e tipos, ligados por relações e propriedades14. Dentre os artigos selecionados, alguns utilizam dicionários direcionados ou personalizados3–6,15 enquanto outros utilizam terminologias padronizadas como o Unified Medical Language System (UMLS)5,8–10,16.
Algoritmos de aprendizagem de máquina
Uma grande variedade de algoritmos tem sido utilizada como está resumido na Tabela 2.
Dos artigos que tem como objetivo a fenotipagem, os algoritmos de Campo Aleatório Condicional (CAC, ou CRF para Conditional Random Field) e Árvore de Decisão demonstraram um bom desempenho no F1 score2,3,5,11. Também se verifica um bom desempenho com a Máquina de Vetores de Suporte (MVS ou SVM para Support Vector Machine)4,6,13 e Similaridade Semântica.
Os restantes artigos9,16,17 têm como objetivo a classificação em duas categorias, exceto o artigo de Schuemie et al.8 cujo objetivo era atribuir códigos ICD-9-CM presentes em relatórios de radiologia.
Na Tabela 3 estão resumidas as medidas de performance dos artigos de acordo com os objetivos e algoritmos utilizados.
Discussão
A conversão de dados não estruturados para dados estruturados é um dos passos mais importantes para a análise e geração de conhecimento. Verifica-se que existem diversas abordagens para tratar esta questão, sendo que a mais apropriada depende de diversos fatores individuais de cada fonte de dados e o objetivo da mineração de dados. Verifica-se também que os algoritmos mais utilizados foram o CAC e a MVS.
A comparação do desempenho dos algoritmos entre os artigos é dificultada pela heterogeneidade dos métodos de mineração de texto, o que já era esperado. Apenas os artigos de McCart et al.10 e Schuemie et al.8 demonstraram a utilização de diversos algoritmos utilizando o mesmo método de mineração de texto. Podemos evidenciar que a simples alteração do objetivo da mineração de texto influencia no desempenho dos algoritmos.
Conclusão
Revisões anteriores18 também demonstraram a grande heterogeneidade de abordagens para a obtenção de conhecimento através de dados da saúde. Esta revisão dá um passo adiante abordando especificamente a mineração de texto. Conclui-se
Declarações
Lista de abreviaturas
- RCE – Registo Clínico Eletrónico
- MeSH – Medical Subject Headings
- PLN – Processamento de Linguagem Natural
- UMLS – Unified Medical Language System
- CAC – Campo Aleatório Condicional
- CRF – Conditional Random Field
- MVS – Máquina de Vetores de Suporte
- SVM – Support Vector Machine
Consentimento para publicação
Não aplicável.
Conflito de interesses
Os autores declaram a ausência de conflito de interesses.
Financiamento
Este estudo foi apoiado pela Universidade do Porto, que possibilitou a obtenção dos artigos de texto completo através da sua plataforma online.
Contribuição dos autores
Todos os autores participaram na pesquisa, análise e elaboração desta revisão.
Figuras e ilustrações
Tabelas
Tabela – Resumo da avaliação de risco de viés conforme o QUADAS-2
Estudos | Risco de Viés | Aplicabilidade | |||||
---|---|---|---|---|---|---|---|
Seleção | Modelo Aplicado | Padrão Ouro | Metodologia | Seleção | Modelo Aplicado | Padrão Ouro | |
Hammond et al.11 | verde | amarelo | verde | verde | verde | amarelo | verde |
Jonnagaddala et al.5 | verde | verde | verde | verde | verde | verde | verde |
Patel et al.6 | verde | verde | verde | verde | verde | verde | verde |
Alnazzawi et al.2 | verde | verde | verde | verde | verde | verde | verde |
Luther et al.9 | verde | verde | verde | verde | verde | verde | verde |
Tanushi et al.16 | amarelo | verde | verde | amarelo | verde | amarelo | verde |
Giang et al.4 | verde | verde | verde | verde | verde | verde | verde |
Gerdes et al.12 | verde | verde | verde | verde | amarelo | vermelho | |
Byrd et al.3 | verde | verde | verde | verde | verde | verde | verde |
McCart et al.10 | verde | verde | verde | vermelho | verde | verde | verde |
Schuemie et al.8 | amarelo | verde | verde | verde | amarelo | verde | verde |
DeShazo et al.13 | verde | verde | verde | amarelo | vermelho | vermelho | verde |
verde = baixo risco; vermelho = alto risco; amarelo = risco incerto
Tabela – Resumo dos algoritmos utilizados nos estudos
Algoritmo de Aprendizagem de Máquina | Estudos |
---|---|
Árvores de decisão | [3,8] |
Campo aleatório condicional | [2,5,11] |
k-NN | [8] |
Regressão logística | [10] |
Naïve Bayes | [8] |
Random Forest | [8] |
RIPPER | [8] |
Máquina de vetores de suporte | [6,8–10,13] |
Tabela – Resumo das performances
Artigo | Objetivo | Algoritmo | N Teste | Precisão | Recall | F-1 Score |
---|---|---|---|---|---|---|
Alnazzawi et al.2 | Fenotipagem | CAC† | 310 | 0,890 | 0,830 | 0,859 |
Hammond et al.11 | 200 | 0,816 | 0,884 | 0,848 | ||
Jonnagaddala et al.5 | 514 | 0,814 | 0,847 | 0,830 | ||
Byrd et al.3 | Árvore de decisão | 400 | 0,881 | 0,896 | 0,889 | |
DeShazo et al.13 | MVS‡ | 300 | 0,952 | 0,952 | 0,952 | |
Patel et al.6 | 7678 | 0,903 | 0,807 | 0,852 | ||
Gerdes et al.12 | SAS® CCS | 200 | 0,560 | 0,700 | 0,622 | |
Giang et al.4 | Similaridade semântica | 20 | 0,857 | 1,000 | 0,923 | |
Luther et al.9 | Classificação | MVS‡ | 7356 | 0,825 | 0,921 | 0,870 |
Tanushi et al.16 | [Dicionário]* | 1867 | 0,977 | 0,603 | 0,746 | |
McCart et al.10 | Regressão logística | 2846 | 0,852 | 0,846 | 0,849 | |
MVS‡ | 0,860 | 0,840 | 0,850 | |||
MVS-Cost (MetaCost) | 0,787 | 0,931 | 0,853 | |||
Schuemie et al.8 | MyC | 974 | 0,850 | 0,900 | 0,874 | |
RIPPER | 0,870 | 0,920 | 0,894 | |||
C4.5 | 0,900 | 0,930 | 0,915 | |||
MVS‡ | 0,870 | 0,910 | 0,890 | |||
Random Forest | 0,820 | 0,860 | 0,840 | |||
k-NN | 0,960 | 0,590 | 0,731 | |||
Naïve Bayes | 0,720 | 0,920 | 0,808 | |||
Atribuição de diagnósticos ICD-9-CM | MyC | 976 | 0,900 | 0,840 | 0,869 | |
RIPPER | 0,880 | 0,850 | 0,865 | |||
C4.5 | 0,880 | 0,840 | 0,860 | |||
MVS‡ | 0,840 | 0,820 | 0,830 | |||
Random Forest | 0,890 | 0,630 | 0,738 | |||
k-NN | 0,840 | 0,550 | 0,665 | |||
Naïve Bayes | 0,560 | 0,690 | 0,618 |
† Campo Aleatório Condicional, ‡ Máquina de Vetores de Suporte, *uso apenas de dicionário para identificação da presença de um termo