Sign In

Benchmarking the Thinking Mode of Multimodal Large Language Models in Clinical Tasks

Created by
  • Haebom
Category
Empty

저자

Jindong Hong, Tianjie Chen, Lingjie Luo, Chuanyang Zheng, Ting Xu, Haibao Yu, Jianing Qiu, Qianzhong Chen, Suning Huang, Yan Xu, Yong Gui, Yijun He, Jiankai Sun

개요

본 논문은 멀티모달 대형 언어 모델(MLLM) 연구의 최근 발전인 "추론 MLLM"의 성능을 평가한다. 특히, 이 논문은 사고 모드(thinking mode)와 비사고 모드(non-thinking mode)를 모두 갖춘 MLLM의 임상 작업에서의 성능 및 신뢰성에 미치는 영향을 조사한다. Seed1.5-VL 및 Gemini-2.5-Flash 두 가지 MLLM을 대상으로 VQA-RAD 및 ROCOv2 데이터셋을 사용하여 네 가지 시각적 의료 작업에 대한 성능을 평가했다.

시사점, 한계점

시사점:
사고 모드 활성화로 인한 성능 향상은 대부분의 작업에서 미미했다.
"이중 상태" MLLM의 의료 분야 적용 가능성을 탐구했다.
한계점:
개방형 VQA 및 의료 영상 해석과 같은 복잡한 의료 작업에서 모델 성능이 최적화되지 않았다.
도메인별 의료 데이터 및 의료 지식 통합을 위한 향상된 방법의 필요성을 시사한다.
👍