Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

Created by
  • Haebom

저자

Suhana Bedi, Hejie Cui, Miguel Fuentes, Alyssa Unell, Michael Wornow, Juan M. Banda, Nikesh Kotecha, Timothy Keyes, Yifan Mai, Mert Oez, Hao Qiu, Shrey Jain, Leonardo Schettini, Mehr Kashyap, Jason Alan Fries, Akshay Swaminathan, Philip Chung, Fateme Nateghi, Asad Aali, Ashwin Nayak, Shivam Vedak, Sneha S. Jain, Birju Patel, Oluseyi Fayanju, Shreya Shah, Ethan Goh, Dong-han Yao, Brian Soetikno, Eduardo Reis, Sergios Gatidis, Vasu Divi, Robson Capasso, Rachna Saralkar, Chia-Chun Chiang, Jenelle Jindal, Tho Pham, Faraz Ghoddusi, Steven Lin, Albert S. Chiou, Christy Hong, Mohana Roy, Michael F. Gensheimer, Hinesh Patel, Kevin Schulman, Dev Dash, Danton Char, Lance Downing, Francois Grolleau, Kameron Black, Bethel Mieso, Aydin Zahedivash, Wen-wai Yim, Harshita Sharma, Tony Lee, Hannah Kirsch, Jennifer Lee, Nerissa Ambers, Carlene Lugtu, Aditya Sharma, Bilal Mawji, Alex Alekseyev, Vicky Zhou, Vikas Kakkar, Jarrod Helzer, Anurang Revri, Yair Bannett, Roxana Daneshjou, Jonathan Chen, Emily Alsentzer, Keith Morse, Nirmal Ravi, Nima Aghaeepour, Vanessa Kennedy, Akshay Chaudhari, Thomas Wang, Sanmi Koyejo, Matthew P. Lungren, Eric Horvitz, Percy Liang, Mike Pfeffer, Nigam H. Shah

개요

본 논문은 의료 면허 시험에서 거의 완벽한 점수를 달성하는 대규모 언어 모델(LLM)의 평가가 실제 임상 현장의 복잡성과 다양성을 제대로 반영하지 못한다는 점을 지적하며, 의료 과제에 대한 LLM 성능 평가를 위한 확장 가능한 평가 프레임워크인 MedHELM을 제시한다. MedHELM은 5개 카테고리, 22개 하위 카테고리, 121개 과제를 포함하는 임상의 검증된 분류 체계, 35개 벤치마크(기존 17개, 새로 제시된 18개)로 구성된 포괄적인 벤치마크 모음, 그리고 개선된 평가 방법(LLM-jury 사용)과 비용-성능 분석을 주요 구성 요소로 한다. 9개의 최첨단 LLM을 35개 벤치마크로 평가한 결과, 상당한 성능 차이가 드러났으며, 특히 고급 추론 모델(DeepSeek R1: 66% 승률, o3-mini: 64% 승률)이 우수한 성능을 보였지만, Claude 3.5 Sonnet은 40% 낮은 추정 연산 비용으로 비슷한 결과를 달성했다. 정규화된 정확도 척도(0-1)에서 대부분의 모델은 임상 기록 생성(0.73-0.85)과 환자 소통 및 교육(0.78-0.83)에서 높은 성능을, 의료 연구 지원(0.65-0.75)에서는 중간 수준의 성능을, 임상 의사 결정 지원(0.56-0.72)과 관리 및 워크플로우(0.53-0.63)에서는 상대적으로 낮은 성능을 보였다. LLM-jury 평가 방법은 임상의 평가와의 일치도가 높았으며(ICC = 0.47), 평균 임상의 간 일치도(ICC = 0.43)와 ROUGE-L(0.36), BERTScore-F1(0.44)을 포함한 자동화된 기준보다 우수했다. Claude 3.5 Sonnet은 최고 성능 모델과 비슷한 성능을 더 낮은 추정 비용으로 달성했다. 이러한 결과는 LLM의 의료 분야 활용을 위한 실제 상황, 과제 특유의 평가의 중요성을 강조하며, 이를 가능하게 하는 오픈 소스 프레임워크를 제공한다.

시사점, 한계점

시사점:
실제 의료 현장의 복잡성을 반영하는 새로운 LLM 평가 프레임워크 MedHELM 제시
다양한 의료 과제에 대한 LLM 성능의 종합적인 벤치마크 제공
LLM-jury 평가 방법을 통해 임상의 평가와의 높은 일치도 확인
비용 효율적인 고성능 LLM 모델 발견 (Claude 3.5 Sonnet)
의료 분야 LLM 적용을 위한 실제 상황, 과제 특유의 평가 중요성 강조
오픈 소스 프레임워크를 통해 연구의 재현성 및 확장성 확보
한계점:
LLM-jury 평가 방법의 ICC 값(0.47)이 완벽한 일치도를 나타내지는 않음. 임상의 간 평가 일치도와 비교적 유사한 수준임.
현재 벤치마크에 포함된 과제의 종류 및 범위가 향후 더욱 확장될 필요가 있음.
모델의 일반화 성능 및 다양한 임상 환경에 대한 적용성에 대한 추가 연구 필요.
비용-성능 분석에 사용된 추정 연산 비용의 정확성에 대한 검토 필요.
👍