Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Med-RewardBench: Evaluación comparativa de modelos de recompensa y jueces para modelos médicos multimodales de lenguaje extenso

Created by
  • Haebom

Autor

Meidan Ding, Jipeng Zhang, Wenxuan Wang, Cheng-Yi Li, Wei-Chieh Fang, Hsin-Yu Wu, Haiqin Zhong, Wenting Chen, Linlin Shen

Describir

Med-RewardBench es el primer benchmark diseñado específicamente para evaluar modelos de recompensa y evaluadores para modelos lingüísticos multimodales a gran escala (MLLM) en aplicaciones sanitarias. Con un conjunto de datos multimodales de 1026 conjuntos de datos anotados por expertos que abarcan 13 sistemas orgánicos y 8 departamentos clínicos, Med-RewardBench se somete a un riguroso proceso de tres pasos para garantizar datos de evaluación de alta calidad en seis dimensiones clínicamente importantes. A diferencia de los benchmarks existentes que se centran en las características generales de los MLLM o evalúan los modelos como solucionadores de problemas, Med-RewardBench considera dimensiones de evaluación esenciales como la precisión diagnóstica y la relevancia clínica. Este estudio evalúa 32 MLLM de vanguardia, incluyendo modelos de código abierto, propietarios y específicos para el sector sanitario, lo que revela importantes desafíos para alinearse con el criterio de expertos. Además, desarrollamos un modelo de referencia que mejora significativamente el rendimiento mediante ajustes precisos.

Takeaways, Limitations

Takeaways: Proporciona el primer punto de referencia especializado para evaluar modelos de compensación y evaluadores de MLLM en el ámbito sanitario. Demuestra empíricamente el rendimiento de varios MLLM y Limitations. Sugiere potencial de mejora del rendimiento mediante ajustes. Presenta criterios de evaluación que consideran la relevancia clínica y la precisión diagnóstica.
Limitations: El conjunto de datos de Med-RewardBench podría estar sesgado hacia hospitales o regiones específicos. Se requiere más investigación para determinar la objetividad y la generalización de los criterios de evaluación. La evaluación debería ampliarse para incluir una gama más amplia de modelos MLLM. Se requiere una mayor validación de su utilidad clínica a largo plazo.
👍