Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine

Created by
  • Haebom

저자

Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna

개요

Medblink 벤치마크는 의료 영상 해석에 있어 다중 모드 언어 모델(MLM)의 지각 능력을 평가하기 위해 고안되었습니다. 8가지 임상적으로 의미있는 과제와 다양한 영상 기법 및 해부학적 영역에 걸쳐 총 1,605개 이미지를 바탕으로 1,429개의 객관식 질문으로 구성됩니다. GPT-4o, Claude 3.5 Sonnet과 같은 범용 모델과 Med Flamingo, LLaVA Med, RadFM과 같은 의료 전문 MLM 등 총 19개의 최첨단 MLM을 평가한 결과, 인간 평가자의 정확도는 96.4%인 반면 최고 성능 모델의 정확도는 65%에 불과했습니다. 이는 현재의 MLM이 일상적인 지각적 검사에서 자주 실패하며, 임상 적용을 위해서는 시각적 기반을 강화해야 함을 시사합니다. 데이터는 프로젝트 페이지에서 이용 가능합니다.

시사점, 한계점

시사점: 현재의 다중 모드 언어 모델(MLM)은 의료 영상의 기본적인 지각 능력에서 부족함을 보이며, 임상 적용을 위해서는 시각적 기반 강화가 필수적임을 보여줍니다. Medblink 벤치마크는 MLM의 지각 능력 평가를 위한 유용한 도구를 제공합니다.
한계점: 벤치마크에 사용된 이미지 및 질문의 수는 상대적으로 제한적일 수 있습니다. 모든 임상 상황을 포괄하지 못할 가능성이 존재합니다. 평가된 MLM의 종류가 특정 모델에 치우쳐 있을 수 있으며, 더욱 다양한 모델을 평가해야 합니다.
👍