MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
개요
MedVLM-R1은 의료 영상 분석에서 투명성과 신뢰성을 높이기 위해 자연어 추론을 명시적으로 생성하는 의료 VLM(Visual Language Model)입니다. 기존의 지도 학습 미세 조정(SFT) 방식 대신 강화 학습 프레임워크를 사용하여 추론 참조 없이 사람이 이해할 수 있는 추론 경로를 발견하도록 모델을 유도합니다. 제한된 데이터(600개의 시각적 질문 답변 샘플)와 모델 매개변수(2B)에도 불구하고, MRI, CT, X-ray 벤치마크에서 정확도를 55.11%에서 78.22%로 향상시키며, 백만 개 이상의 샘플로 훈련된 더 큰 모델들을 능가합니다. 또한 분포 외 작업에서 강력한 도메인 일반화를 보여줍니다. 명시적인 추론과 의료 영상 분석을 통합함으로써, 임상 현장에서 신뢰할 수 있고 해석 가능한 AI를 향한 중요한 발걸음을 내딛었습니다. 모델은 Hugging Face에서 이용 가능합니다.