Medblink 벤치마크는 의료 영상 해석에 있어 다중 모드 언어 모델(MLM)의 지각 능력을 평가하기 위해 고안되었습니다. 8가지 임상적으로 의미있는 과제와 다양한 영상 기법 및 해부학적 영역에 걸쳐 총 1,605개 이미지를 바탕으로 1,429개의 객관식 질문으로 구성됩니다. GPT-4o, Claude 3.5 Sonnet과 같은 범용 모델과 Med Flamingo, LLaVA Med, RadFM과 같은 의료 전문 MLM 등 총 19개의 최첨단 MLM을 평가한 결과, 인간 평가자의 정확도는 96.4%인 반면 최고 성능 모델의 정확도는 65%에 불과했습니다. 이는 현재의 MLM이 일상적인 지각적 검사에서 자주 실패하며, 임상 적용을 위해서는 시각적 기반을 강화해야 함을 시사합니다. 데이터는 프로젝트 페이지에서 이용 가능합니다.