본 연구는 최근 출시된 대규모 언어 모델(LLM) 5종(OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, Claude 3.5 Sonnet)의 방사선종양학 물리학 질문 응답 능력을 평가하였다. 전문 물리학자가 작성한 100개의 객관식 문제를 사용하여 모델들의 성능을 평가하였으며, 정답 옵션을 임의로 배열하거나 "위의 답변 중 옳은 것이 없음"으로 대체하여 추론 능력을 평가하였다. "설명 먼저" 및 "단계별" 프롬프트를 사용하여 추론 능력 향상 여부도 확인하였다. 그 결과, 모든 모델이 전문가 수준의 성능을 보였으며, o1-preview는 다수결 투표에서 의료 물리학자를 능가하는 결과를 보였다. 하지만 정답 옵션을 "위의 답변 중 옳은 것이 없음"으로 대체했을 때 성능이 크게 저하되어 추론 능력 향상의 필요성을 시사하였다. "설명 먼저" 및 "단계별" 프롬프트는 일부 모델의 추론 능력 향상에 기여하였다.