Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning

Created by
  • Haebom
Category
Empty

저자

Haozhen Gong, Xiaozhong Ji, Yuansen Liu, Wenbin Wu, Xiaoxiao Yan, Jingjing Liu, Kai Wu, Jiazhen Pan, Bailiang Jian, Jiangning Zhang, Xiaobin Hu, Hongwei Bran Li

개요

본 논문은 의료 분야에서 복잡한 추론 능력을 평가하기 위한 세분화된 의료 복합 멀티모달 추론 벤치마크인 Med-CMR을 제시한다. Med-CMR은 시각적 이해와 다단계 추론을 세분화하여 표적 평가를 가능하게 하며, 소규모 객체 감지, 세밀한 세부 사항 구별, 공간 이해 등 시각적 이해와 시간 예측, 인과 관계 추론, 롱테일 일반화, 다중 소스 통합 등 임상 관련 시나리오를 포함하는 도전적인 과제 설계를 특징으로 한다. 또한, 11개 장기 시스템과 12개 영상 모달리티를 포괄하는 20,653개의 시각적 질의 응답(VQA) 쌍으로 구성된 광범위하고 고품질의 데이터를 사용한다. Med-CMR을 통해 18개의 최첨단 MLLM을 평가한 결과, GPT-5가 상업 모델 중 최고 성능을 보였지만, 전문 의료 MLLM이 강력한 일반 모델보다 우수하지 못하며, 롱테일 일반화가 주요 실패 요인으로 나타났다.

시사점, 한계점

시사점:
Med-CMR은 의료 분야 MLLM의 시각적 추론 통합 및 희귀 사례 견고성을 위한 스트레스 테스트를 제공한다.
향후 임상 시스템을 위한 엄격한 척도로 기능할 수 있다.
GPT-5가 최고 성능을 보였으나, 전문 의료 MLLM의 성능 향상이 필요함을 시사한다.
한계점:
롱테일 일반화가 주요 실패 요인으로 나타나, 희귀 사례에 대한 MLLM의 개선이 필요하다.
전문 의료 MLLM이 강력한 일반 모델보다 일관되게 우수한 성능을 보이지 못한다.
👍