Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

Created by
  • Haebom

저자

Suhana Bedi, Hejie Cui, Miguel Fuentes, Alyssa Unell, Michael Wornow, Juan M. Banda, Nikesh Kotecha, Timothy Keyes, Yifan Mai, Mert Oez, Hao Qiu, Shrey Jain, Leonardo Schettini, Mehr Kashyap, Jason Alan Fries, Akshay Swaminathan, Philip Chung, Fateme Nateghi, Asad Aali, Ashwin Nayak, Shivam Vedak, Sneha S. Jain, Birju Patel, Oluseyi Fayanju, Shreya Shah, Ethan Goh, Dong-han Yao, Brian Soetikno, Eduardo Reis, Sergios Gatidis, Vasu Divi, Robson Capasso, Rachna Saralkar, Chia-Chun Chiang, Jenelle Jindal, Tho Pham, Faraz Ghoddusi, Steven Lin, Albert S. Chiou, Christy Hong, Mohana Roy, Michael F. Gensheimer, Hinesh Patel, Kevin Schulman, Dev Dash, Danton Char, Lance Downing, Francois Grolleau, Kameron Black, Bethel Mieso, Aydin Zahedivash, Wen-wai Yim, Harshita Sharma, Tony Lee, Hannah Kirsch, Jennifer Lee, Nerissa Ambers, Carlene Lugtu, Aditya Sharma, Bilal Mawji, Alex Alekseyev, Vicky Zhou, Vikas Kakkar, Jarrod Helzer, Anurang Revri, Yair Bannett, Roxana Daneshjou, Jonathan Chen, Emily Alsentzer, Keith Morse, Nirmal Ravi, Nima Aghaeepour, Vanessa Kennedy, Akshay Chaudhari, Thomas Wang, Sanmi Koyejo, Matthew P. Lungren, Eric Horvitz, Percy Liang, Mike Pfeffer, Nigam H. Shah

개요

본 논문은 의료 라이선스 시험에서 거의 완벽한 점수를 달성하는 대규모 언어 모델(LLM)의 평가가 실제 임상 현장의 복잡성과 다양성을 충분히 반영하지 못한다는 문제를 제기하며, 의료 과제에 대한 LLM 성능을 평가하기 위한 확장 가능한 평가 프레임워크인 MedHELM을 제시합니다. MedHELM은 5개의 주요 범주, 22개의 하위 범주, 121개의 과제로 구성된 임상의가 검증한 분류 체계, 35개의 벤치마크(기존 17개, 새로 개발 18개)로 구성된 종합적인 벤치마크 모음, 개선된 평가 방법(LLM-jury 사용)과 비용-성능 분석을 포함합니다. 9개의 최첨단 LLM을 35개의 벤치마크를 사용하여 평가한 결과, 상당한 성능 차이가 드러났으며, DeepSeek R1(66% 승률), o3-mini(64% 승률)과 같은 고급 추론 모델이 우수한 성능을 보였고, Claude 3.5 Sonnet은 40% 낮은 추정 계산 비용으로 비슷한 결과를 달성했습니다. 정규화된 정확도 척도(0-1)에서 대부분의 모델은 임상 기록 생성(0.73-0.85), 환자 소통 및 교육(0.78-0.83)에서 높은 성능을 보였고, 의료 연구 지원(0.65-0.75)에서는 중간 수준, 임상 의사 결정 지원(0.56-0.72) 및 관리 및 워크플로우(0.53-0.63)에서는 상대적으로 낮은 성능을 보였습니다. LLM-jury 평가 방법은 임상의 평가와 높은 일치도(ICC = 0.47)를 보였으며, 평균 임상의 간 일치도(ICC = 0.43) 및 ROUGE-L(0.36), BERTScore-F1(0.44)을 포함한 자동화된 기준보다 우수했습니다. Claude 3.5 Sonnet은 최고 모델과 비슷한 성능을 더 낮은 추정 비용으로 달성했습니다. 이러한 결과는 LLM의 의료적 활용을 위한 실제 상황 및 과제별 평가의 중요성을 강조하며, 이를 가능하게 하는 오픈 소스 프레임워크를 제공합니다.

시사점, 한계점

시사점:
실제 의료 환경에서 LLM의 성능을 평가하기 위한 표준화된 프레임워크인 MedHELM 제시.
다양한 의료 과제에 대한 LLM의 성능 비교 및 분석을 통한 최적 모델 식별.
LLM-jury 평가 방법의 효용성 확인 및 기존 자동 평가 지표보다 우수한 성능 입증.
비용 효율적인 고성능 LLM 모델 발견 (Claude 3.5 Sonnet).
의료 분야에서 LLM 적용을 위한 실제 상황 및 과제별 평가의 중요성 강조.
한계점:
MedHELM의 확장성 및 일반화 가능성에 대한 추가 연구 필요.
LLM-jury 평가의 주관성 및 편향 가능성 고려.
평가에 사용된 LLM의 종류 및 버전이 제한적일 수 있음.
비용-성능 분석에 사용된 계산 비용 추정의 정확성 검증 필요.
실제 임상 환경에서의 LLM 성능 검증 부족.
👍