Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MedVAL: Hacia la validación de textos médicos a nivel experto con modelos lingüísticos

Created by
  • Haebom

Autor

Asad Aali, Vasiliki Bikia, Maya Varma, Nicole Chiou, Sophie Ostmeier, Arnav Singhvi, Magdalini Paschali, Ashwin Kumar, Andrew Johnston, Karimar Amador-Martinez, Eduardo Juan Perez Guerrero, Paola Naovi Cruz Rivera, Sergios Gatidis, Christian Bluethgen, Eduardo Pontes Reis, Eddy D. Zandee van Rilland, Poonam Laxmappa Hosamani, Kevin R Keet, Minjoung Go, Evelyn Ling, David B. Larson, Curtis Langlotz, Roxana Daneshjou, Jason Hom, Sanmi Koyejo, Emily Alsentzer y Akshay S. Chaudhari.

Describir

Este artículo presenta MedVAL, un novedoso marco de aprendizaje autosupervisado para evaluar la precisión y la seguridad de los modelos de lenguaje (ML) utilizados en entornos sanitarios. Para superar las limitaciones de los métodos actuales de revisión manual por médicos (costo y falta de resultados referenciados por expertos), MedVAL entrena un ML evaluador que evalúa la consistencia factual de los textos médicos generados por ML utilizando datos sintéticos sin etiquetas médicas ni resultados de referencia. Para evaluar el rendimiento de MedVAL, presentamos el conjunto de datos MedVAL-Bench, que consta de 840 resultados anotados por médicos según los niveles de riesgo y las categorías de error. Experimentos con seis tareas médicas diversas y diez ML de vanguardia muestran que el ajuste fino de MedVAL mejora significativamente la concordancia entre los ML existentes y los médicos (p < 0,001), aumentando la puntuación F1 promedio del 66 % al 83 % y mejorando la puntuación de clasificación de seguridad por muestra hasta en un 86 %. Este estudio mejora el rendimiento del LM propietario de mayor rendimiento (GPT-4o) en un 8 % y publica el código base de MedVAL, MedVAL-Bench, y el LM de código abierto de mayor rendimiento, MedVAL-4B, para respaldar una vía de integración clínica escalable y con control de riesgos. Esta es la primera evidencia de que el LM puede alcanzar capacidades de verificación de nivel experto en textos médicos.

Takeaways, Limitations

Takeaways:
Presentamos MedVAL, un marco de aprendizaje autosupervisado eficiente y escalable para evaluar la precisión y seguridad de los textos médicos.
Permitir la evaluación de la coherencia fáctica del texto médico generado por LM sin etiquetas de médicos ni salida de referencia.
Se mejoró el rendimiento de varios LM para aumentar el acuerdo con el médico (puntuación F1 promedio del 66% al 83%).
Garantizar la reproducibilidad y escalabilidad de la investigación mediante el lanzamiento de MedVAL-4B, el LM de código abierto de mayor rendimiento.
LM es el primero en demostrar un rendimiento cercano al de un experto en la verificación de textos médicos.
Limitations:
El conjunto de datos de MedVAL-Bench podría tener un tamaño limitado. Se requiere entrenamiento con más datos para mejorar aún más el rendimiento.
Dado que se entrenó utilizando datos sintéticos, es necesario verificar el rendimiento de generalización en datos médicos reales.
Es improbable que se detecten con precisión todos los tipos de errores médicos. Se necesitan mejoras continuas y más investigación.
Es posible que no refleje plenamente la complejidad y diversidad del campo de la salud. Se requieren más pruebas en diversos campos y entornos de la salud.
👍