본 논문은 의료 현장에서의 안전하고 효과적인 대규모 언어 모델(LLM) 활용을 위해, 전문가 수준의 진단 능력을 엄격하게 평가하도록 설계된 포괄적이고 어려운 벤치마크인 DiagnosisArena를 제시합니다. DiagnosisArena는 상위 10개 의학 저널에 게재된 임상 증례 보고서에서 추출한 28개 의료 분야를 아우르는 1,113개의 세분화된 환자 사례 및 해당 진단 쌍으로 구성됩니다. AI 시스템과 인간 전문가의 다중 검토 및 데이터 유출 방지를 위한 철저한 검증을 거쳐 개발되었습니다. 실험 결과, 최첨단 추론 모델인 o3-mini, o1, DeepSeek-R1의 정확도는 각각 45.82%, 31.09%, 17.79%에 불과하여, 현재 LLM의 임상 진단 추론 과제에서 상당한 일반화 병목 현상이 있음을 보여줍니다. DiagnosisArena는 의료 AI의 진단 추론 능력 향상을 위한 연구 개발을 촉진하기 위해 공개되었습니다 (https://github.com/SPIRAL-MED/DiagnosisArena).