Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models

Created by
  • Haebom

저자

Yakun Zhu, Zhongzhen Huang, Linjie Mu, Yutong Huang, Wei Nie, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang

개요

본 논문은 의료 현장에서 복잡한 진단 추론 능력을 평가하기 위한 새로운 벤치마크인 DiagnosisArena를 제시합니다. DiagnosisArena는 10개의 최상위 의학 저널에서 발췌한 1,113개의 환자 사례와 진단으로 구성되며, 28개의 의료 전문 분야를 아우릅니다. AI 시스템과 전문가의 다중 검토를 거쳐 데이터 유출을 방지하고 정교하게 구축되었습니다. 실험 결과, 최첨단 추론 모델들(o3-mini, o1, DeepSeek-R1)조차도 각각 45.82%, 31.09%, 17.79%의 정확도만을 달성하여, 현재 대규모 언어 모델의 임상 진단 추론 과제에서의 일반화에 심각한 병목 현상이 있음을 보여줍니다. DiagnosisArena는 향후 AI의 진단 추론 능력 향상을 위한 연구 개발을 촉진하고자 합니다. 벤치마크와 평가 도구는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
의료 분야에서 대규모 언어 모델의 진단 추론 능력을 체계적으로 평가하기 위한 엄격하고 포괄적인 벤치마크인 DiagnosisArena를 제공합니다.
최첨단 모델의 성능이 여전히 낮다는 것을 보여줌으로써, 의료 AI 개발에서 개선이 필요한 영역을 명확히 제시합니다.
향후 AI 기반 진단 시스템 개발 및 성능 향상에 중요한 기준을 제시합니다.
DiagnosisArena의 공개를 통해 연구자들이 자유롭게 접근하고 활용할 수 있도록 하여, 의료 AI 분야의 발전을 가속화합니다.
한계점:
벤치마크에 포함된 데이터의 범위 및 다양성에 대한 추가적인 연구가 필요할 수 있습니다.
현재 벤치마크의 성능은 특정 모델과 데이터에 제한될 수 있으며, 더욱 다양한 모델과 데이터에 대한 평가가 필요합니다.
실제 임상 환경과의 차이로 인해 벤치마크 결과가 실제 성능을 완벽하게 반영하지 못할 수 있습니다.
👍