LLMs em Diagnóstico Médico: diferenças entre revisões

Fonte: aprendis
Saltar para a navegaçãoSaltar para a pesquisa
Sem resumo de edição
Linha 14: Linha 14:
Há atualmente diversas ferramentas (OpenAI GPT-4, Google Gemini e MedLM, Cohere Command e Meta Llama 2 dentre outras) a serem estudadas em casos reais e que estão a mostrar bons resultados tanto em exibir diagnósticos diferencias (inclusive comparado com médicos experientes) e também como a auxiliar o raciocínio clínico. Estudos tem também mostrado que a combinação de algumas delas pode otimizar ainda mais a performance dos LLM.<ref>https://arxiv.org/abs/2312.00164 </ref><ref>DOI: 10.1056/AIcs2400502 </ref>
Há atualmente diversas ferramentas (OpenAI GPT-4, Google Gemini e MedLM, Cohere Command e Meta Llama 2 dentre outras) a serem estudadas em casos reais e que estão a mostrar bons resultados tanto em exibir diagnósticos diferencias (inclusive comparado com médicos experientes) e também como a auxiliar o raciocínio clínico. Estudos tem também mostrado que a combinação de algumas delas pode otimizar ainda mais a performance dos LLM.<ref>https://arxiv.org/abs/2312.00164 </ref><ref>DOI: 10.1056/AIcs2400502 </ref>


Vejamos um exemplo de funcionamento do OpenAI GPT-4 (“ChatGPT”) baseado em um caso clínico de um paciente com pancreatite aguda (que embora fictício foi baseado em um caso real):
Vejamos um exemplo de funcionamento do OpenAI GPT-4 (“ChatGPT”) baseado em um caso clínico de um paciente com pancreatite aguda (que embora fictício foi baseado em um caso real):
 


'''Querry:''' Sou médico e estou de plantão na emergência. Pode sugerir as principais hipóteses diagnósticas para este caso e o raciocínio adotado:   
'''Querry:''' Sou médico e estou de plantão na emergência. Pode sugerir as principais hipóteses diagnósticas para este caso e o raciocínio adotado:   
Linha 24: Linha 25:
Resposta: Com base nos dados fornecidos, algumas hipóteses diagnósticas principais incluem:  
Resposta: Com base nos dados fornecidos, algumas hipóteses diagnósticas principais incluem:  


# Pancreatite Aguda  
==== 1. Pancreatite Aguda ====


* Raciocínio clínico:  
* Raciocínio clínico:  
Linha 43: Linha 44:




# Colecistite Aguda ou Colelitíase  
==== 2. Colecistite Aguda ou Colelitíase ====


* Raciocínio clínico:  
* Raciocínio clínico:  
Linha 60: Linha 61:




# Hepatite Aguda ou Doença Hepática Alcoólica  
==== 3. Hepatite Aguda ou Doença Hepática Alcoólica ====


* Raciocínio clínico:  
* Raciocínio clínico:  
Linha 77: Linha 78:




# Úlcera Péptica Perfurada ou Complicada  
==== 4. Úlcera Péptica Perfurada ou Complicada ====


* Raciocínio clínico:  
* Raciocínio clínico:  
Linha 94: Linha 95:




# Síndrome de Boerhaave ou Esofagite Grave  
==== 5. Síndrome de Boerhaave ou Esofagite Grave ====


* Raciocínio clínico:  
* Raciocínio clínico:  
Linha 107: Linha 108:


* Considerar endoscopia digestiva.  
* Considerar endoscopia digestiva.  


=== '''Abordagem Inicial (Conduta Geral):''' ===  
=== '''Abordagem Inicial (Conduta Geral):''' ===  


# Monitorização e suporte clínico:  
 
==== 1. Monitorização e suporte clínico: ====


* Acesso venoso, hidratação vigorosa com cristalóides.  
* Acesso venoso, hidratação vigorosa com cristalóides.  
Linha 119: Linha 122:




# Exames laboratoriais:  
==== 2. Exames laboratoriais: ====


* Hemograma completo, eletrólitos, amilase/lipase, função hepática (TGO/TGP, GGT, bilirrubinas), glicemia.  
* Hemograma completo, eletrólitos, amilase/lipase, função hepática (TGO/TGP, GGT, bilirrubinas), glicemia.  
Linha 125: Linha 128:
* Gasometria arterial (avaliar acidose metabólica ou outros distúrbios).  
* Gasometria arterial (avaliar acidose metabólica ou outros distúrbios).  


# Imagens:  
 
==== 3. Imagens: ====


* Ultrassonografia de abdome.  
* Ultrassonografia de abdome.  
Linha 132: Linha 136:




# Avaliação multidisciplinar:  
==== 4. Avaliação multidisciplinar: ====


* Cirurgia geral (se suspeita de abdome agudo perfurativo ou necessidade de intervenção cirúrgica).  
* Cirurgia geral (se suspeita de abdome agudo perfurativo ou necessidade de intervenção cirúrgica).  


* Gastroenterologia, se necessário.  
* Gastroenterologia, se necessário.  


Podemos ver uma resposta geral ampla, adequada ao contexto (médico na emergência) e coerente emitida pelo modelo. Vale ressaltar que é possível continuar com o aprofundamento de algum dos diagnósticos/condutas ou mesmo solicitar um número maior de diagnósticos diferenciais, incluindo alguns mais raros para o caso.   
Podemos ver uma resposta geral ampla, adequada ao contexto (médico na emergência) e coerente emitida pelo modelo. Vale ressaltar que é possível continuar com o aprofundamento de algum dos diagnósticos/condutas ou mesmo solicitar um número maior de diagnósticos diferenciais, incluindo alguns mais raros para o caso.   


Apesar de se tratar de um caso simples e levando em conta que há ainda muito o que ser aprimorado e testado para garantirmos a segurança do seu uso rotineiro na prática clínica, vemos uma ferramenta bastante promissora como protótipo.
Apesar de se tratar de um caso simples e levando em conta que há ainda muito o que ser aprimorado e testado para garantirmos a segurança do seu uso rotineiro na prática clínica, vemos uma ferramenta bastante promissora como protótipo.

Revisão das 21h54min de 28 de janeiro de 2025

LLMs em Diagnóstico Médico

Os modelos de linguagem ampla (LLMs) parecem trazer um avanço significativo na forma como a humanidade lida com informações e o conhecimento, o uso de Deep Learning (DL) é a essência do funcionamento de tais modelos, e conseguem predizer a próxima palavras que deve ser colocada no texto que esta a ser gerado. Tudo isso feito através do treinamento de modelos que envolvem matemática e estatística avançada.[1][2]

Com o avanço de uma ferramenta tecnológica tão revolucionária surge o importante questionamento: Como tal ferramenta pode ser utilizada para melhorar o processo de diagnóstico médico?

Os LLMs têm o potencial de transformar a prática médica, tornando o diagnóstico mais preciso e eficiente. No entanto, é fundamental que seu desenvolvimento e aplicação sejam acompanhados de rigorosas avaliações e considerações éticas. A colaboração entre profissionais de saúde, cientistas da computação e especialistas em ética é essencial para garantir que os LLMs sejam utilizados de forma segura e benéfica para os pacientes(Google Gemini no parágrafo de conclusão a querry: Como os LLMs podem contribuir em diagnósticos médicos atualmente e quais perspectivas futuras?)

O uso de tais ferramentas no contexto de diagnóstico médico logo começou a ser avaliado [3][4] uma vez que podem analisar grande quantidade de dados médicos e integrar a análise de diferentes tipos de dados como Imagens, textos e sons há um espaço promissor para uso na prática clínica, principalmente em situações como apoio a decisão e triagem, mas pode ser usada até mesmo para apoio a pacientes “curiosos”. No entanto ainda há um campo de incerteza nos quesitos de segurança, robustez, privacidade e explicabilidade bem como outros possíveis vieses, o que tem gerado receio no meio acadêmico e profissional em relação a como deverá ser seu uso.[3][4][5][6]

Sendo a explicabilidade uma das grandes ressalvas em relação aos modelos, tem-se desenvolvidos estratégias de elaboração do raciocínio clínico como mostrado em artigo publicado no JAMA em abril/2024 - The Journal of the American Medical Association - o raciocínio clínico foi avaliado usando R-IDEA Scores mostrando resultados promissores. Neste estudo o chatbot teve desempenho semelhante aos médicos assistentes e residentes em precisão diagnóstica, raciocínio clínico correto e diagnósticos que não podem ser perdidos. No entanto o chatbot teve casos mais frequentes de raciocínio clínico incorreto comparado aos residentes, o que não foi observado em relação aos médicos assistentes.[7]

Há atualmente diversas ferramentas (OpenAI GPT-4, Google Gemini e MedLM, Cohere Command e Meta Llama 2 dentre outras) a serem estudadas em casos reais e que estão a mostrar bons resultados tanto em exibir diagnósticos diferencias (inclusive comparado com médicos experientes) e também como a auxiliar o raciocínio clínico. Estudos tem também mostrado que a combinação de algumas delas pode otimizar ainda mais a performance dos LLM.[8][9]

Vejamos um exemplo de funcionamento do OpenAI GPT-4 (“ChatGPT”) baseado em um caso clínico de um paciente com pancreatite aguda (que embora fictício foi baseado em um caso real):


Querry: Sou médico e estou de plantão na emergência. Pode sugerir as principais hipóteses diagnósticas para este caso e o raciocínio adotado:

Paciente com 28 anos, etilista, chega a emergência com quadro de dor abdominal intensa localizada em quadrantes superiores do abdome a qual não consegue caracterizar tipologia, inicio há aproximadamente 24 horas, de caráter persistente com períodos de variação da intensidade, sem fatores claros de piora ou melhora, acompanhada por vômitos espontâneo e pós-prandial precoces. Nega irradiação ou episódios prévios semelhantes.

Paciente encontra-se consciente e orientado, tendo como alterações ao exame físico no momento: fácies de dor e dor a palpação nos quadrantes superiores do abdome.

Resposta: Com base nos dados fornecidos, algumas hipóteses diagnósticas principais incluem:

1. Pancreatite Aguda

  • Raciocínio clínico:
  • Dor abdominal intensa e persistente nos quadrantes superiores, com vômitos associados, é característico.
  • História de etilismo é um fator de risco importante.
  • Exame físico com dor à palpação nos quadrantes superiores reforça a possibilidade.
  • Avaliar se há sinais sistêmicos (como febre, taquicardia ou hipotensão) e sinais de gravidade (como Cullen ou Grey-Turner).
  • Próximos passos:
  • Solicitar amilase e lipase séricas.
  • Imagem abdominal (como ultrassonografia ou tomografia computadorizada).


2. Colecistite Aguda ou Colelitíase

  • Raciocínio clínico:
  • Dor nos quadrantes superiores, possivelmente no quadrante superior direito, pode sugerir patologia biliar.
  • História de vômitos, dor exacerbada por alimentos gordurosos (quando aplicável).
  • Etilismo não é um fator clássico, mas pode coexistir.
  • Próximos passos:
  • Solicitar ultrassonografia abdominal para avaliar vesícula biliar (espessamento da parede, presença de cálculos ou líquido perivesicular).
  • Exames laboratoriais: leucograma, bilirrubinas, fosfatase alcalina e transaminases.


3. Hepatite Aguda ou Doença Hepática Alcoólica

  • Raciocínio clínico:
  • Dor nos quadrantes superiores pode ser devido a distensão da cápsula hepática por inflamação ou congestão.
  • Etilismo aumenta a suspeita de hepatite alcoólica.
  • Podem coexistir icterícia ou alterações laboratoriais (transaminases elevadas, padrão AST/ALT > 2:1 em hepatite alcoólica).
  • Próximos passos:
  • Exames laboratoriais: transaminases, bilirrubinas, GGT, albumina, INR.
  • Ultrassonografia para avaliar alterações no parênquima hepático.


4. Úlcera Péptica Perfurada ou Complicada

  • Raciocínio clínico:
  • Dor intensa nos quadrantes superiores pode indicar úlcera gástrica ou duodenal.
  • O etilismo é um fator predisponente para gastrite/úlcera.
  • Avaliar sinais de peritonite, como defesa abdominal e rigidez.
  • Próximos passos:
  • Radiografia de abdome em pé (para pneumoperitônio).
  • Endoscopia digestiva alta, se possível e estável.


5. Síndrome de Boerhaave ou Esofagite Grave

  • Raciocínio clínico:
  • Vômitos frequentes podem causar lesões esofágicas.
  • Dor torácica ou abdominal superior deve levantar essa hipótese, especialmente se associada a sinais sistêmicos (febre, taquicardia).
  • Próximos passos:
  • Imagem toracoabdominal (raio-X ou TC com contraste).
  • Considerar endoscopia digestiva.


Abordagem Inicial (Conduta Geral):

1. Monitorização e suporte clínico:

  • Acesso venoso, hidratação vigorosa com cristalóides.
  • Controle da dor (analgésicos e, se necessário, opioides).
  • Correção de eletrólitos (considerar desidratação secundária a vômitos).


2. Exames laboratoriais:

  • Hemograma completo, eletrólitos, amilase/lipase, função hepática (TGO/TGP, GGT, bilirrubinas), glicemia.
  • Gasometria arterial (avaliar acidose metabólica ou outros distúrbios).


3. Imagens:

  • Ultrassonografia de abdome.
  • Tomografia computadorizada com contraste se diagnóstico não esclarecido e paciente estável.


4. Avaliação multidisciplinar:

  • Cirurgia geral (se suspeita de abdome agudo perfurativo ou necessidade de intervenção cirúrgica).
  • Gastroenterologia, se necessário.


Podemos ver uma resposta geral ampla, adequada ao contexto (médico na emergência) e coerente emitida pelo modelo. Vale ressaltar que é possível continuar com o aprofundamento de algum dos diagnósticos/condutas ou mesmo solicitar um número maior de diagnósticos diferenciais, incluindo alguns mais raros para o caso.

Apesar de se tratar de um caso simples e levando em conta que há ainda muito o que ser aprimorado e testado para garantirmos a segurança do seu uso rotineiro na prática clínica, vemos uma ferramenta bastante promissora como protótipo.

  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N.,& Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems https://arxiv.org/abs/1706.03762
  2. Wenxuan Li - The Advance of Deep Learning Based Named Entity Recognition - https://doi.org/10.54097/hset.v12i.1368
  3. 3,0 3,1 doi: 10.1016/j.isci.2024.109713 The application of large language models in medicine: A scoping review
  4. 4,0 4,1 Singhal, K., Azizi, S., Tu, T. et al. Large language models encode clinical knowledge. Nature 620, 172–180 (2023). https://doi.org/10.1038/s41586-023-06291-2
  5. Savage, T., Nayak, A., Gallo, R. et al. Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine. npj Digit. Med. 7, 20 (2024). https://doi.org/10.1038/s41746-024-01010-1
  6. doi:10.1001/jamainternmed.2023.1835. How Chatbots and Large Language Model Artificial Intelligence Systems Will Reshape Modern Medicine: Fountain of Creativity or Pandora’s Box?
  7. Cabral, S., Restrepo, D., Kanjee, Z., Wilson, P., Crowe, B., Abdulnour, R.-E., Rodman, A. (2024). Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Intern Med., 184(5), 581-583. https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/2817046
  8. https://arxiv.org/abs/2312.00164
  9. DOI: 10.1056/AIcs2400502