Extração de Diagnósticos e Informações de Doenças a partir de Registos Clínicos Eletrónicos: Uma Revisão Sistemática das Abordagens de Mineração de Texto

Fonte: aprendis
Saltar para a navegaçãoSaltar para a pesquisa

Francisco Bischoff
Mestrado de Informática Médica
Universidade do Porto
fbischoff@med.up.pt

Marta Martins
Mestrado de Informática Médica
Universidade do Porto
up201500424@med.up.pt

Miguel Duarte
Mestrado de Informática Médica
Universidade do Porto
up201501636@med.up.pt

Resumo

Introdução: Com a disponibilidade dos registos clínicos eletrónicos, verificou-se a necessidade da mineração de texto e de dados usando diversos métodos. Este trabalho tem como objetivo uma revisão na literatura métodos mais utilizados neste domínio, e se possível uma comparação entre eles.

Métodos: Foi realizada uma pesquisa na literatura da PubMed utilizando as palavras chave “registo clínico eletrónico” e “mineração de texto”, sendo incluídos os artigos que utilizam a técnica de mineração de texto em registo clínicos eletrónicos, e excluídos aqueles que utilizaram apenas dados estruturados, não utilizavam aprendizagem de máquina ou não buscavam informações de doenças e diagnósticos.

Resultados: Os registos clínicos eletrónicos abrangem uma vasta gama de informação, verificando nos artigos extraídos que poucos deles satisfaziam os critérios de inclusão. Foi verificado que dos artigos incluídos, grande parte tinha como objetivo a identificação de Fenótipos Computacionais através de algoritmos como o de Campo Aleatório Condicional e Máquina de Vetores de Suporte.

Conclusões:

Palavras-chave: mineração de texto, mineração de dados, algoritmos, diagnósticos, informações de doenças, registos clínicos eletrónicos

Introdução

As últimas décadas foram marcadas por uma crescente disponibilidade de registos clínicos eletrónicos (RCE). Além disso, técnicas de mineração de texto e mineração de dados têm sido intensamente estudadas como uma ferramenta para a descoberta de conhecimento. Várias dessas técnicas têm sido aplicadas para extrair ou interligar as informações de RCE, a fim de melhorar os sistemas de apoio à decisão, encontrar novos padrões ou conhecimento até então desconhecidos. Cada sistema de mineração de texto tem diferentes implementações e metas, por exemplo associações doença-doença, doença-droga, doença-genes, e alguns podem ser melhores para um objetivo, mas não para outros. Compreender as diferentes abordagens para diferentes objetivos é fundamental para garantir os melhores resultados.

O principal objetivo deste estudo é a identificação dos métodos de mineração de texto utilizados na extração de informação sobre doenças e diagnósticos a partir dos RCEs. Os objetivos secundários são comparar as medidas de desempenho destas abordagens.

Métodos

Critérios de inclusão e exclusão

Foram selecionados estudos que comparam o uso de uma técnica de mineração de texto em RCE com um padrão de referência. Foram excluídos estudos que utilizam somente dados estruturados ou semiestruturados (ex.: resultados de laboratórios, documentos previamente anotados), estudos que não utilizam métodos de machine learning e estudos que não tentam extrair informações sobre doenças ou diagnósticos e co-morbilidades. Estudos realizados em idiomas para além do inglês, alemão, espanhol e português não foram considerados.

Fontes e estratégias de busca

A estratégia de busca na literatura foi desenvolvida utilizando o Medical Subject Headings (MeSH) e palavras de texto relacionadas com RCE, mineração de texto e mineração de dados.

A pesquisa não foi limitada por data ou idioma. Um exemplo da consulta efetuada no PUBMED é descrito como se segue: ("text mining"[All Fields] AND ("electronic health records"[MeSH Terms] OR "electronic health records"[All Fields] OR "electronic health record"[All Fields])).

Processo de seleção e obtenção de dados

Os resultados da pesquisa foram inicialmente geridos através do Mendeley, um software gestor de referências, onde foram removidos os duplicados, e depois enviados para o Covidence, uma plataforma online que facilita a colaboração entre os revisores durante os processos de seleção dos estudos, avaliação da qualidade e extração de dados. Os autores desenvolveram e testaram perguntas de triagem e formulários para as avaliações dos artigos com base nos critérios de inclusão e exclusão, tendo sido feito um exercício de calibração para aperfeiçoar as perguntas de triagem.

Os autores analisaram de forma independente os títulos e resumos. Pares de autores analisaram os textos completos dos artigos pré-selecionados. As divergências foram decididas através da discussão, sendo a opinião do terceiro autor utilizada como desempate. Os nomes das revistas, autores e instituições não foram ocultados dos revisores no momento da seleção.

Usando um formulário padronizado no software Covidence, ambos os autores extraíram os dados de forma independente e em duplicado de cada estudo. Para garantir a consistência entre os revisores, foram realizados exercícios de calibração antes de iniciar a avaliação. Os autores resolveram as divergências pela discussão, tendo uma estatística κ de 0,726.

Foram extraídos os seguintes dados dos estudos:

  • Fonte dos dados (ex.: notas de admissão, notas de alta);
  • Quantidade de dados utilizados nos treinos e testes (ex.: número de episódios de internamento, número de registos dos pacientes);
  • Método de validação (ex.: validação cruzada, corpora independentes);
  • Algoritmo de Machine Learning (ex.: Naïve Bayes, K-NN; SVM);
  • Características de mineração (ex.: processamento de linguagem natural, expressões regulares, saco de palavras)
  • Objetivos dos processos de mineração (ex.: fenotipagem, classificação);
  • Dados da tabela 2x2, se disponíveis (ex.: verdadeiros positivos, verdadeiros negativos).
  • Medidas de desempenho, se disponíveis (ex.: precisão, recall, F1 score).

Resultados

Os resultados da pesquisa de artigos estão apresentados na Figura 1. Dos 53 estudos iniciais, 12 artigos enquadraram nos critérios de inclusão. Todos os artigos forneceram dados suficientes para extrair as medidas de desempenho.

Risco de viés nos estudos incluídos

A avaliação de risco de viés dos 12 estudos incluídos indicam um alto risco de viés em 3 artigos (25%), risco incerto em 3 artigos (25%) e baixo risco em 6 artigos (50%). Os itens de avaliação de risco de viés estão resumidos na Tabela 1.

Métodos de mineração de texto

Nos estudos selecionados, verifica-se que a grande maioria tem como objetivo ou utiliza numa fase intermédia a identificação de Fenótipos Computacionais (ou Definição de Fenótipos através de RCE), os quais se definem como uma condição ou característica clínica, ou um conjunto de atributos clínicos que podem ser determinados através dos dados do RCE e dados auxiliares sem a necessidade de uma revisão ou interpretação por um clínico1. Foram agrupados para fins de análise estudos que utilizavam estes métodos num grupo chamado Fenotipagem.

Alnazzawi et al. utilizaram o processamento de linguagem natural (PLN) com a finalidade de construir um corpus de fenótipos para a identificação de insuficiência cardíaca, publicamente disponível online (http://www.nactem.ac.uk/PhenoCHF/)2. Informações da sintaxe2–5, afixos de palavras2 e etiquetadores morfológicos2,5,6 foram algumas das técnicas utilizadas por alguns dos artigos. Byrd et al. verificou no seu trabalho que a maioria dos critérios de diagnósticos para insuficiência cardíaca eram constituídos por substantivos compostos sendo um ponto importante a identificação de frases que contêm tais substantivos3.

Geralmente após a anotação do texto através do PLN, é realizada uma análise do texto. Byrd et al. utilizou diversas técnicas como coocorrência, desambiguidade, negação, contrafatual, restrições numéricas e de segmento3. Giang et al. utilizou a técnica chamada Similaridade Semântica sob o pressuposto de que duas palavras ou termos que coexistam na mesma frase ou documento possuem um contexto similar, sendo possível assim deduzir a sua distância semântica4,7.

O uso do saco de palavras, embora tenha muitas limitações como a perda da ordem dos elementos e de informações de contexto, ainda tem sido bastante utilizado pela sua simplicidade2,5,6,8. Schuemie et al. além do saco de palavras, utilizou n-gramas como forma de mitigar algumas destas limitações8.

Como forma de redução da dimensionalidade e do “ruído” dos documentos, verifica-se a aplicação de técnicas como remoção de stop words9–11, de palavras que aparecem apenas uma vez9,10, de palavras com menos de 3 letras9,10, stemming11 e associação de palavras8.

Gerdes et al.12 utiliza um software proprietário chamado SAS® Text Miner de forma a realizar PLN, entretanto não fornece mais informações. Enquanto DeShazo et al. utiliza um corpus anotado manualmente13.

Uso de terminologias padronizadas

As técnicas de mineração de texto são muito dependentes dos léxicos, terminologias (ou vocabulário) e ontologias. Um léxico pode ser útil para o mapeamento de conceitos, entretanto as terminologias agrupam termos de um particular domínio de interesse, abordando problemas de sinonímia, polissemia e desambiguidade. As ontologias podem ser representadas de diversas formas, incluindo classes, conceitos e tipos, ligados por relações e propriedades14. Dentre os artigos selecionados, alguns utilizam dicionários direcionados ou personalizados3–6,15 enquanto outros utilizam terminologias padronizadas como o Unified Medical Language System (UMLS)5,8–10,16.

Algoritmos de aprendizagem de máquina

Uma grande variedade de algoritmos tem sido utilizada como está resumido na Tabela 2.

Dos artigos que tem como objetivo a fenotipagem, os algoritmos de Campo Aleatório Condicional (CAC, ou CRF para Conditional Random Field) e Árvore de Decisão demonstraram um bom desempenho no F1 score2,3,5,11. Também se verifica um bom desempenho com a Máquina de Vetores de Suporte (MVS ou SVM para Support Vector Machine)4,6,13 e Similaridade Semântica.

Os restantes artigos9,16,17 têm como objetivo a classificação em duas categorias, exceto o artigo de Schuemie et al.8 cujo objetivo era atribuir códigos ICD-9-CM presentes em relatórios de radiologia.

Na Tabela 3 estão resumidas as medidas de performance dos artigos de acordo com os objetivos e algoritmos utilizados.

Discussão

A conversão de dados não estruturados para dados estruturados é um dos passos mais importantes para a análise e geração de conhecimento. Verifica-se que existem diversas abordagens para tratar esta questão, sendo que a mais apropriada depende de diversos fatores individuais de cada fonte de dados e o objetivo da mineração de dados. Verifica-se também que os algoritmos mais utilizados foram o CAC e a MVS.

A comparação do desempenho dos algoritmos entre os artigos é dificultada pela heterogeneidade dos métodos de mineração de texto, o que já era esperado. Apenas os artigos de McCart et al.10 e Schuemie et al.8 demonstraram a utilização de diversos algoritmos utilizando o mesmo método de mineração de texto. Podemos evidenciar que a simples alteração do objetivo da mineração de texto influencia no desempenho dos algoritmos.

Conclusão

Revisões anteriores18 também demonstraram a grande heterogeneidade de abordagens para a obtenção de conhecimento através de dados da saúde. Esta revisão dá um passo adiante abordando especificamente a mineração de texto. Conclui-se

Declarações

Lista de abreviaturas

  • RCE – Registo Clínico Eletrónico
  • MeSH – Medical Subject Headings
  • PLN – Processamento de Linguagem Natural
  • UMLS – Unified Medical Language System
  • CAC – Campo Aleatório Condicional
  • CRF – Conditional Random Field
  • MVS – Máquina de Vetores de Suporte
  • SVM – Support Vector Machine

Consentimento para publicação

Não aplicável.

Conflito de interesses

Os autores declaram a ausência de conflito de interesses.

Financiamento

Este estudo foi apoiado pela Universidade do Porto, que possibilitou a obtenção dos artigos de texto completo através da sua plataforma online.

Contribuição dos autores

Todos os autores participaram na pesquisa, análise e elaboração desta revisão.

Figuras e ilustrações

Tabelas

Tabela – Resumo da avaliação de risco de viés conforme o QUADAS-2

Estudos Risco de Viés Aplicabilidade
Seleção Modelo Aplicado Padrão Ouro Metodologia Seleção Modelo Aplicado Padrão Ouro
Hammond et al.11 Smile-green.png Smile-yellow.png Smile-green.png Smile-green.png Smile-green.png Smile-yellow.png Smile-green.png
Jonnagaddala et al.5 Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png
Patel et al.6 Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png
Alnazzawi et al.2 Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png
Luther et al.9 Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png
Tanushi et al.16 Smile-yellow.png Smile-green.png Smile-green.png Smile-yellow.png Smile-green.png Smile-yellow.png Smile-green.png
Giang et al.4 Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png
Gerdes et al.12 Smile-green.png Smile-yellow.png Smile-green.png Smile-green.png Smile-green.png Smile-yellow.png Smile-red.png
Byrd et al.3 Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png Smile-green.png
McCart et al.10 Smile-green.png Smile-green.png Smile-green.png Smile-red.png Smile-green.png Smile-green.png Smile-green.png
Schuemie et al.8 Smile-yellow.png Smile-green.png Smile-green.png Smile-green.png Smile-yellow.png Smile-green.png Smile-green.png
DeShazo et al.13 Smile-green.png Smile-green.png Smile-green.png Smile-yellow.png Smile-red.png Smile-red.png Smile-green.png

Smile-green.png = baixo risco; Smile-red.png = alto risco; Smile-yellow.png = risco incerto

Tabela – Resumo dos algoritmos utilizados nos estudos

Algoritmo de Aprendizagem de Máquina Estudos
Árvores de decisão [3,8]
Campo aleatório condicional [2,5,11]
k-NN [8]
Regressão logística [10]
Naïve Bayes [8]
Random Forest [8]
RIPPER [8]
Máquina de vetores de suporte [6,8–10,13]

Tabela – Resumo das performances

Artigo Objetivo Algoritmo N Teste Precisão Recall F-1 Score
Alnazzawi et al.2 Fenotipagem CAC 310 0,890 0,830 0,859
Hammond et al.11 200 0,816 0,884 0,848
Jonnagaddala et al.5 514 0,814 0,847 0,830
Byrd et al.3 Árvore de decisão 400 0,881 0,896 0,889
DeShazo et al.13 MVS 300 0,952 0,952 0,952
Patel et al.6 7678 0,903 0,807 0,852
Gerdes et al.12 SAS® CCS 200 0,560 0,700 0,622
Giang et al.4 Similaridade semântica 20 0,857 1,000 0,923
Luther et al.9 Classificação MVS 7356 0,825 0,921 0,870
Tanushi et al.16 [Dicionário]* 1867 0,977 0,603 0,746
McCart et al.10 Regressão logística 2846 0,852 0,846 0,849
MVS 0,860 0,840 0,850
MVS-Cost (MetaCost) 0,787 0,931 0,853
Schuemie et al.8 MyC 974 0,850 0,900 0,874
RIPPER 0,870 0,920 0,894
C4.5 0,900 0,930 0,915
MVS 0,870 0,910 0,890
Random Forest 0,820 0,860 0,840
k-NN 0,960 0,590 0,731
Naïve Bayes 0,720 0,920 0,808
Atribuição de diagnósticos ICD-9-CM MyC 976 0,900 0,840 0,869
RIPPER 0,880 0,850 0,865
C4.5 0,880 0,840 0,860
MVS 0,840 0,820 0,830
Random Forest 0,890 0,630 0,738
k-NN 0,840 0,550 0,665
Naïve Bayes 0,560 0,690 0,618

† Campo Aleatório Condicional, ‡ Máquina de Vetores de Suporte, *uso apenas de dicionário para identificação da presença de um termo

Referências