[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Una evaluación reciente sobre el desempeño de los LLM en física de oncología radioterápica utilizando preguntas de opciones aleatorias

Created by
  • Haebom

Autor

Peilong Wang, Jason Holmes, Zhengliang Liu, Dequan Chen, Tianming Liu, Jiajian Shen, Wei Liu

Describir

Este estudio evaluó la capacidad de cinco modelos de lenguaje a gran escala (LLM) lanzados recientemente (OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro y Claude 3.5 Sonnet) para responder preguntas de física de oncología radioterápica. El rendimiento de los modelos se evaluó utilizando 100 preguntas de opción múltiple escritas por físicos profesionales, y la capacidad de razonamiento se evaluó ordenando aleatoriamente las opciones de respuesta correcta o reemplazándolas con "Ninguna de las respuestas anteriores es correcta". También examinamos si la capacidad de razonamiento mejoró utilizando las indicaciones "Explique primero" y "Paso a paso". Como resultado, todos los modelos mostraron un rendimiento de nivel experto, y o1-preview superó a los físicos médicos en la votación por mayoría. Sin embargo, cuando la opción de respuesta correcta se reemplazó con "Ninguna de las respuestas anteriores es correcta", el rendimiento se redujo significativamente, lo que sugiere la necesidad de mejorar la capacidad de razonamiento. Las indicaciones “Explica primero” y “Paso a paso” contribuyeron a mejorar la capacidad de razonamiento de algunos modelos.

Takeaways, Limitations

Takeaways:
Los LLM recientes demuestran una capacidad de nivel experto para responder preguntas sobre física en oncología radioterápica.
Presentar el potencial del LLM en la educación y la formación en física en oncología radioterápica.
Se ha demostrado que ciertas estrategias de estímulo (explicación primero, paso a paso) son eficaces para mejorar las habilidades de razonamiento de algunos LLM.
Limitations:
La adición de la opción "Ninguna de las respuestas anteriores es correcta" resultó en un rendimiento deficiente del modelo y en la necesidad de mejorar las capacidades de inferencia.
El número de problemas utilizados (100) puede ser relativamente pequeño.
El uso de la votación por mayoría para evaluar el desempeño del modelo.
La eficacia de una determinada estrategia de estímulo no se aplica a todos los modelos.
👍