[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación comparativa de los LLM en Oftalmología (BELO) para el conocimiento y razonamiento oftalmológico

Created by
  • Haebom

Autor

Sahana Srinivasan, Chen-Hsin Sun, Mark Chia, Gabriel Dawei Yang, Wendy Meihua Wong, David Ziyou Chen, Dianbo Liu, Maxwell Singer, Fares Antaki, Lucian V Del Priore, Jost Jonas, Ron Adelman, Qingyu Chen, Yih-Chung Tham

Describir

Los parámetros de referencia existentes para la evaluación de modelos lingüísticos a gran escala (LLM) en oftalmología tienen un alcance limitado y se centran excesivamente en la precisión. En este artículo, presentamos un parámetro de evaluación estandarizado e integral, BEnchmarking LLMs for Ophthalmology (BELO), desarrollado mediante múltiples revisiones por pares por 13 oftalmólogos. BELO evalúa la precisión clínica y la calidad de la inferencia en oftalmología. Se seleccionaron preguntas de opción múltiple (MCQ) relacionadas con la oftalmología de diversos conjuntos de datos médicos (BCSC, MedMCQA, MedQA, BioASQ y PubMedQA) mediante concordancia de palabras clave y un modelo PubMedBERT optimizado. Los conjuntos de datos se sometieron a múltiples revisiones por pares y se eliminaron sistemáticamente las preguntas duplicadas y de baja calidad. Diez oftalmólogos mejoraron las explicaciones de cada respuesta de MCQ y fueron revisadas posteriormente por tres oftalmólogos con experiencia. Para demostrar la utilidad de BELO, evaluamos seis LLM (OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B y Gemini 1.5 Pro) utilizando precisión, macro-F1 y cinco métricas de generación de texto (ROUGE-L, BERTScore, BARTScore, METEOR y AlignScore). Además, dos oftalmólogos realizaron una evaluación cualitativa adicional, revisando 50 resultados seleccionados aleatoriamente para verificar su precisión, exhaustividad e integridad. BELO consta de 900 preguntas de alta calidad revisadas por expertos, agregadas de cinco fuentes: BCSC (260), BioASQ (10), MedMCQA (572), MedQA (40) y PubMedQA (18). Se ha establecido una tabla de clasificación pública para fomentar la transparencia en la evaluación y la presentación de informes, y el conjunto de datos de BELO se mantendrá como un punto de referencia exclusivo para la evaluación, con el fin de garantizar comparaciones justas y reproducibles de futuros modelos.

Takeaways, Limitations

Takeaways: Proporcionar un punto de referencia estandarizado e integral para la evaluación de LLM en oftalmología, crear un conjunto de datos de alta calidad a través de una revisión de expertos, comparar el desempeño de varios LLM y crear un entorno de evaluación transparente, y sugerir direcciones para el desarrollo futuro de LLM.
Limitations: Los tipos de LLM actualmente incluidos en el índice de referencia pueden ser limitados, puede haber subjetividad en la evaluación cualitativa, la generalización puede ser limitada debido a la especificidad del campo de la oftalmología y la necesidad de una actualización y expansión continua del conjunto de datos.
👍