본 논문은 의료 분야에서 복잡한 추론 작업을 수행할 수 있는 대규모 언어 모델의 안전하고 효과적인 배포를 위해, 전문가 수준의 진단 능력을 엄격하게 평가하도록 설계된 포괄적이고 어려운 벤치마크인 DiagnosisArena를 제시합니다. DiagnosisArena는 10개의 최상위 의학 저널에 발표된 임상 증례 보고서에서 파생된 28개 의학 분야를 아우르는 1,113개의 분절된 환자 사례 및 해당 진단 쌍으로 구성됩니다. AI 시스템과 인간 전문가 모두에 의한 여러 차례의 검토 및 검증을 거쳐 데이터 유출을 방지하기 위한 철저한 검사를 수행하여 벤치마크를 개발했습니다. 최첨단 추론 모델인 o3, o1, DeepSeek-R1조차 각각 51.12%, 31.09%, 17.79%의 정확도만 달성하여, 임상 진단 추론 과제에 직면했을 때 현재 대규모 언어 모델의 상당한 일반화 병목 현상을 강조합니다. DiagnosisArena는 실제 임상 진단 과제에 대한 보다 효과적인 솔루션을 가능하게 하여 AI의 진단 추론 능력 향상을 도모하고자 합니다. 벤치마크 및 평가 도구는 https://github.com/SPIRAL-MED/DiagnosisArena 에서 제공됩니다.