Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models

Created by
  • Haebom

저자

Yakun Zhu, Zhongzhen Huang, Linjie Mu, Yutong Huang, Wei Nie, Jiaji Liu, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang

개요

본 논문은 의료 현장에서의 안전하고 효과적인 대규모 언어 모델(LLM) 활용을 위해, 전문가 수준의 진단 능력을 엄격하게 평가하도록 설계된 포괄적이고 어려운 벤치마크인 DiagnosisArena를 제시합니다. DiagnosisArena는 상위 10개 의학 저널에 게재된 임상 증례 보고서에서 추출한 28개 의료 분야를 아우르는 1,113개의 세분화된 환자 사례 및 해당 진단 쌍으로 구성됩니다. AI 시스템과 인간 전문가의 다중 검토 및 데이터 유출 방지를 위한 철저한 검증을 거쳐 개발되었습니다. 실험 결과, 최첨단 추론 모델인 o3-mini, o1, DeepSeek-R1의 정확도는 각각 45.82%, 31.09%, 17.79%에 불과하여, 현재 LLM의 임상 진단 추론 과제에서 상당한 일반화 병목 현상이 있음을 보여줍니다. DiagnosisArena는 의료 AI의 진단 추론 능력 향상을 위한 연구 개발을 촉진하기 위해 공개되었습니다 (https://github.com/SPIRAL-MED/DiagnosisArena).

시사점, 한계점

시사점:
전문가 수준의 의료 진단 능력을 평가할 수 있는 새로운 벤치마크 DiagnosisArena 제시
최첨단 LLM의 의료 진단 추론 능력의 한계를 명확하게 제시
의료 AI 분야의 발전을 위한 새로운 연구 방향 제시 및 공개된 벤치마크 및 평가 도구를 통한 지속적인 연구 개발 가능성 제시
한계점:
현재 벤치마크에 사용된 모델의 성능이 제한적일 수 있음. 다양한 모델에 대한 추가적인 평가 필요.
DiagnosisArena의 데이터가 특정 저널 및 의료 분야에 편향될 가능성 존재. 더욱 다양한 데이터를 포함하도록 확장 필요.
실제 임상 환경의 복잡성을 완벽하게 반영하지 못할 수 있음. 실제 환경 적용을 위한 추가 연구 필요.
👍