[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options

Created by
  • Haebom

저자

Peilong Wang, Jason Holmes, Zhengliang Liu, Dequan Chen, Tianming Liu, Jiajian Shen, Wei Liu

개요

본 연구는 최근 출시된 대규모 언어 모델(LLM) 5종(OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, Claude 3.5 Sonnet)의 방사선종양학 물리학 질문 응답 능력을 평가하였다. 전문 물리학자가 작성한 100개의 객관식 문제를 사용하여 모델들의 성능을 평가하였으며, 정답 옵션을 임의로 배열하거나 "위의 답변 중 옳은 것이 없음"으로 대체하여 추론 능력을 평가하였다. "설명 먼저" 및 "단계별" 프롬프트를 사용하여 추론 능력 향상 여부도 확인하였다. 그 결과, 모든 모델이 전문가 수준의 성능을 보였으며, o1-preview는 다수결 투표에서 의료 물리학자를 능가하는 결과를 보였다. 하지만 정답 옵션을 "위의 답변 중 옳은 것이 없음"으로 대체했을 때 성능이 크게 저하되어 추론 능력 향상의 필요성을 시사하였다. "설명 먼저" 및 "단계별" 프롬프트는 일부 모델의 추론 능력 향상에 기여하였다.

시사점, 한계점

시사점:
최근 출시된 LLM들이 방사선종양학 물리학 질문에 대해 전문가 수준의 응답 능력을 보임.
방사선종양학 물리학 교육 및 훈련에 LLM 활용 가능성 제시.
특정 프롬프트 전략(설명 먼저, 단계별)이 일부 LLM의 추론 능력 향상에 효과적임.
한계점:
"위의 답변 중 옳은 것이 없음" 옵션 추가 시 모델 성능 저하, 추론 능력 개선 필요성 제기.
사용된 문제의 수(100개)가 상대적으로 적을 수 있음.
모델의 성능 평가에 다수결 투표 방식을 사용한 점.
특정 프롬프트 전략의 효과가 모든 모델에 적용되는 것은 아님.
👍