Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight

Created by
  • Haebom

저자

Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz

개요

본 논문은 GPT-5의 방사선종양학적 활용 가능성을 평가한 연구 결과를 제시합니다. GPT-5의 성능은 ACR 방사선종양학 수련의 시험(TXIT, 2021)과 60개의 실제 임상 사례 비네트를 활용한 두 가지 벤치마크를 통해 평가되었습니다. TXIT에서는 GPT-5가 92.8%의 정확도를 달성하여 GPT-4(78.8%) 및 GPT-3.5(62.1%)를 능가했습니다. 비네트 평가에서는 정확성(평균 3.24/4) 및 포괄성(평균 3.59/4)에서 높은 평가를 받았지만, 복잡한 상황에서는 오류가 발생했습니다. 결론적으로 GPT-5는 방사선종양학 분야에서 유망하지만, 임상 적용 전 전문가의 엄격한 감독이 필요함을 시사합니다.

시사점, 한계점

시사점:
GPT-5는 기존 LLM 모델들보다 방사선종양학 분야에서 우수한 성능을 보였다.
실제 임상 사례에 대한 치료 계획 생성 능력이 뛰어나다.
방사선종양학 교육 및 의사결정 지원 도구로서의 잠재력을 확인했다.
한계점:
복잡한 임상 상황에서의 오류 발생 가능성이 존재한다.
임상 적용을 위해서는 전문가의 엄격한 검토가 필수적이다.
평가자 간 신뢰도가 낮아(Fleiss' κ 0.083) 주관적인 판단의 영향을 배제하기 어렵다.
GPT-5의 생성 결과에 대한 환각(hallucination) 가능성이 완전히 배제되지 않았다.
👍