본 논문은 의료 현장에서 복잡한 진단 추론 능력을 평가하기 위한 새로운 벤치마크인 DiagnosisArena를 제시합니다. DiagnosisArena는 10개의 최상위 의학 저널에서 발췌한 1,113개의 환자 사례와 진단으로 구성되며, 28개의 의료 전문 분야를 아우릅니다. AI 시스템과 전문가의 다중 검토를 거쳐 데이터 유출을 방지하고 정교하게 구축되었습니다. 실험 결과, 최첨단 추론 모델들(o3-mini, o1, DeepSeek-R1)조차도 각각 45.82%, 31.09%, 17.79%의 정확도만을 달성하여, 현재 대규모 언어 모델의 임상 진단 추론 과제에서의 일반화에 심각한 병목 현상이 있음을 보여줍니다. DiagnosisArena는 향후 AI의 진단 추론 능력 향상을 위한 연구 개발을 촉진하고자 합니다. 벤치마크와 평가 도구는 GitHub에서 공개됩니다.