Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación comparativa de GPT-5 en oncología radioterápica: avances mensurables, pero necesidad persistente de supervisión experta

Created by
  • Haebom

Autor

Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz

Describir

Este artículo presenta los resultados de un estudio que evalúa el potencial de GPT-5 en oncología radioterápica. El rendimiento de GPT-5 se evaluó mediante dos pruebas de referencia: el Examen de Internado de Capacitación en Oncología Radioterápica del ACR (TXIT, 2021) y 60 viñetas clínicas reales. En el TXIT, GPT-5 alcanzó una precisión del 92,8 %, superando a GPT-4 (78,8 %) y GPT-3.5 (62,1 %). En la evaluación de viñetas, GPT-5 obtuvo altas puntuaciones de precisión (puntuación media de 3,24/4) y exhaustividad (puntuación media de 3,59/4), pero se observaron errores en situaciones complejas. En conclusión, GPT-5 es prometedor en oncología radioterápica, pero requiere una rigurosa supervisión de expertos antes de su aplicación clínica.

Takeaways, Limitations

Takeaways:
GPT-5 superó los modelos LLM existentes en el campo de la oncología radioterápica.
Excelente capacidad para crear planes de tratamiento para casos clínicos reales.
Se ha confirmado su potencial como herramienta de educación y apoyo a la toma de decisiones en oncología radioterápica.
Limitations:
Existe la posibilidad de que se produzcan errores en situaciones clínicas complejas.
Una revisión rigurosa por parte de expertos es esencial para la aplicación clínica.
Debido a que la confiabilidad entre evaluadores fue baja (κ de Fleiss 0,083), es difícil excluir la influencia del juicio subjetivo.
No se ha descartado por completo la posibilidad de alucinación en los resultados generados por GPT-5.
👍