Sign In

RiskAgent: Autonomous Medical AI Copilot for Generalist Risk Prediction

Created by
  • Haebom
Category
Empty

저자

Fenglin Liu, Jinge Wu, Hongjian Zhou, Xiao Gu, Soheila Molaei, Anshul Thakur, Lei Clifton, Honghan Wu, David A. Clifton

개요

본 논문은 다양한 복잡한 질병(예: 심혈관 질환 및 암)에 걸쳐 387개 이상의 위험 시나리오를 다루는 광범위한 의료 위험 예측을 수행하기 위해 RiskAgent 시스템을 제시합니다. RiskAgent는 증거 기반 의학에 의해 뒷받침되는 위험 계산기 및 점수 시스템과 같은 수백 개의 임상 의사 결정 도구와 협업하도록 설계되었습니다. 154개 질병, 86개 증상, 50개 전문 분야 및 24개 기관계에 걸쳐 12,352개의 질문을 포함하는 위험 예측을 위한 최초의 벤치마크 MedRisk를 구축하여 방법을 평가했습니다. 80억 개의 모델 매개변수를 가진 RiskAgent는 76.33%의 정확도를 달성하여 최신 상용 LLM인 o1, o3-mini 및 GPT-4.5를 능가하고 GPT-4o의 38.39% 정확도의 두 배를 달성했습니다. 특히, 특발성 폐섬유증(IPF)과 같은 희귀 질환에서 RiskAgent는 o1과 GPT-4.5보다 각각 27.27%와 45.46%의 정확도 향상을 보였습니다. 외부 증거 기반 진단 벤치마크에 대한 일반화 평가를 추가로 수행하여 RiskAgent가 최상의 결과를 달성함을 보여주었습니다. 다양한 진단 영역에서 솔루션의 잠재력을 보여주는 결과이며, 모델의 적응성을 향상시키기 위해 10억 개에서 700억 개의 매개변수에 이르는 모델 제품군을 구축하고 오픈 소스로 공개했습니다 (https://github.com/AI-in-Health/RiskAgent).

시사점, 한계점

시사점:
다양한 질병에 대한 광범위한 의료 위험 예측을 가능하게 하는 RiskAgent 시스템 개발.
기존 LLM을 능가하는 높은 정확도 달성 (특히 희귀 질환에서).
외부 벤치마크에서도 우수한 성능을 보임.
다양한 규모의 모델들을 오픈 소스로 공개하여 접근성 향상 및 추가 연구 촉진.
한계점:
MedRisk 벤치마크가 본 연구에서 개발된 것이므로, 다른 벤치마크 데이터셋에 대한 일반화 성능 검증이 필요함.
실제 임상 환경에서의 성능 및 안전성에 대한 추가 연구가 필요함.
모델의 설명 가능성 및 신뢰도 향상을 위한 연구가 필요함.
👍