Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning
Created by
Haebom
저자
LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
개요
본 논문은 의료 분야에서의 다중 모달 대규모 언어 모델(MLLM)의 한계를 해결하기 위해, 의료 영상뿐 아니라 방대한 의학 문헌과 일반 영역 데이터를 포함하는 포괄적인 데이터 큐레이션 절차를 제안합니다. 이를 통해 풍부한 의료 지식을 포함하는 다중 모달 데이터셋을 구축하고, 의료 전문 지식을 포함하고 과제 해결 능력을 향상시키는 다단계 훈련을 거친 의료 전문 MLLM인 Lingshu를 소개합니다. 또한, 검증 가능한 보상 패러다임을 사용한 강화 학습을 통해 Lingshu의 의료 추론 능력을 향상시키는 잠재력을 탐색하고, 표준화되고 공정하며 효율적인 모델 평가를 위한 통합 평가 프레임워크인 MedEvalKit를 개발합니다. Lingshu는 다중 모달 QA, 텍스트 기반 QA, 의료 보고서 생성 등 세 가지 기본적인 의료 과제에서 기존 오픈소스 다중 모달 모델보다 우수한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
의료 영상뿐 아니라 의학 문헌 및 일반 데이터를 활용한 풍부한 의료 지식 데이터셋 구축 방법 제시