Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LLMEval-Med: Un referente clínico real para LLM médicos con validación médica

Created by
  • Haebom

Autor

Ming Zhang, Yujiong Shen, Zelin Li, Huayu Sha, Binze Hu, Yuhui Wang, Chenhao Huang, Shichun Liu, Jingqi Tong, Changhao Jiang, Mingxu Chai, Zhiheng Xi, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang

Describir

LLMEval-Med es un nuevo punto de referencia para la evaluación de modelos lingüísticos a gran escala (LLM) en el ámbito sanitario. Aborda las limitaciones de los puntos de referencia sanitarios existentes en cuanto al diseño de preguntas (principalmente de opción múltiple), las fuentes de datos (que a menudo no se derivan de escenarios clínicos reales) y los métodos de evaluación (falta de evaluación de inferencias complejas). El LLMEval-Med abarca 2996 preguntas generadas a partir de historias clínicas reales y escenarios clínicos diseñados por expertos, que abarcan cinco dominios sanitarios fundamentales. Utiliza un proceso de evaluación automatizado que incorpora listas de verificación desarrolladas por expertos y un marco de LLM como juez. Valida las puntuaciones de las máquinas mediante el análisis de la concordancia entre humanos y máquinas y refina dinámicamente las listas de verificación y las indicaciones en función de la retroalimentación de los expertos para garantizar su fiabilidad. Se evaluaron trece LLM (modelos médicos expertos, modelos de código abierto y modelos de código cerrado) en LLMEval-Med, lo que proporcionó información valiosa sobre la implementación segura y eficaz de los LLM en el ámbito sanitario. El conjunto de datos está disponible públicamente en https://github.com/llmeval/LLMEval-Med .

Takeaways, Limitations

Takeaways:
Proporcionar un nuevo punto de referencia para la evaluación de LLM médico basado en registros médicos y escenarios clínicos reales.
Evaluación eficiente y objetiva a través de procesos de evaluación automatizados y el marco LLM-as-Judge.
Mejorar la confiabilidad de la evaluación y la mejora continua mediante el análisis de consenso hombre-máquina.
Proporciona información sobre la aplicación de los LLM en el campo médico al proporcionar resultados de análisis comparativos de varios tipos de LLM.
Mayor reproducibilidad y escalabilidad de la investigación a través de conjuntos de datos públicos.
Limitations:
Es posible que en el futuro sea necesario ampliar el número de preguntas del estudio de referencia y la gama de campos médicos cubiertos.
La alineación perfecta con los entornos clínicos reales puede resultar difícil.
Tal vez se necesiten investigaciones adicionales para mejorar aún más la objetividad del método de evaluación.
Se necesitan más investigaciones para determinar la generalización de otros modelos además de los 13 LLM evaluados actualmente.
👍