Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MedHalu: Alucinaciones en respuestas a consultas de salud por parte de grandes modelos lingüísticos

Created by
  • Haebom

Autor

Vibhor Agarwal, Yiqiao Jin, Mohit Chandra, Munmun De Choudhury, Srijan Kumar, Nishanth Sastry

Describir

Este artículo aborda el problema de las alucinaciones en modelos de lenguaje a gran escala (LLM) médicamente relevantes que responden a preguntas de pacientes. A diferencia de estudios previos que se centraron en evaluar el conocimiento médico de los LLM mediante preguntas de exámenes médicos estandarizados, este estudio analiza las alucinaciones en las respuestas de los LLM a preguntas médicas de pacientes reales. Para lograr esto, presentamos MedHalu, un nuevo punto de referencia compuesto por varios temas médicos y respuestas de alucinaciones generadas por LLM, y anotamos los tipos de alucinaciones y segmentos de texto en detalle. Además, proponemos MedHaluDetect, un marco integral para evaluar las capacidades de detección de alucinaciones de los LLM, y estudiamos la vulnerabilidad de tres grupos de personas a las alucinaciones médicas: profesionales médicos, LLM y legos. Nuestros resultados muestran que los LLM tienen un rendimiento significativamente peor que los profesionales médicos y, en algunos casos, los legos en la detección de alucinaciones. Proponemos un enfoque con participación de expertos que integra inferencias de expertos en las entradas de los LLM, mejorando así el rendimiento de detección de alucinaciones de los LLM (por ejemplo, una mejora del 6,3 % en la puntuación macro-F1 para GPT-4).

Takeaways, Limitations

Takeaways:
Presentamos un punto de referencia de alucinaciones médicas MedHalu y un marco de evaluación MedHaluDetect basado en preguntas de pacientes reales.
Empíricamente, demostramos que los LLM tienen capacidades de detección de alucinaciones médicas significativamente menores que los profesionales médicos y el público en general.
Sugerir la posibilidad de mejorar el rendimiento de detección de alucinaciones del LLM a través de la participación de expertos.
Proporcionar información importante Takeaways para garantizar la seguridad y confiabilidad del sistema de provisión de información médica basado en LLM.
Limitations:
Limitaciones de tamaño y diversidad de datos del punto de referencia MedHalu.
Limitaciones en los tipos de modelos LLM involucrados en el estudio.
Se necesitan más investigaciones para determinar la generalización de los métodos de participación de expertos y su aplicabilidad a entornos médicos del mundo real.
Es necesario un análisis más detallado de los diferentes tipos de alucinaciones y su gravedad.
👍