본 논문은 멀티모달 대형 언어 모델(MLLM) 연구의 최근 발전인 "추론 MLLM"의 성능을 평가한다. 특히, 이 논문은 사고 모드(thinking mode)와 비사고 모드(non-thinking mode)를 모두 갖춘 MLLM의 임상 작업에서의 성능 및 신뢰성에 미치는 영향을 조사한다. Seed1.5-VL 및 Gemini-2.5-Flash 두 가지 MLLM을 대상으로 VQA-RAD 및 ROCOv2 데이터셋을 사용하여 네 가지 시각적 의료 작업에 대한 성능을 평가했다.
시사점, 한계점
•
시사점:
◦
사고 모드 활성화로 인한 성능 향상은 대부분의 작업에서 미미했다.
◦
"이중 상태" MLLM의 의료 분야 적용 가능성을 탐구했다.
•
한계점:
◦
개방형 VQA 및 의료 영상 해석과 같은 복잡한 의료 작업에서 모델 성능이 최적화되지 않았다.