뇌 영상 분석은 뇌 질환 진단 및 치료에 필수적이며, 다중 모드 대규모 언어 모델(MLLM)이 이러한 분석을 지원하는 데 활용되고 있습니다. 기존의 뇌 관련 시각 질문 응답(VQA) 벤치마크는 몇 가지 영상 모달리티만 다루거나, 조악한 수준의 병리학적 설명에 국한되어 MLLM의 포괄적인 평가를 방해합니다. 이러한 문제를 해결하기 위해, 뇌 영상 분석에서 MLLM의 다중 모드 이해 능력을 평가하기 위한 최초의 포괄적인 다중 모드 VQA 벤치마크인 OmniBrainBench를 소개합니다. OmniBrainBench는 30개의 검증된 의료 자료에서 수집된 15개의 뇌 영상 모달리티로 구성되며, 9,527개의 검증된 VQA 쌍과 31,706개의 이미지를 포함합니다. 임상 워크플로우를 시뮬레이션하며, 전문 방사선 전문의가 엄격하게 검증한 15개의 다단계 임상 작업을 포함합니다. 개방형, 의료용, 독점 MLLM을 포함한 24개의 최첨단 모델을 평가한 결과, OmniBrainBench가 상당한 과제를 제시한다는 것이 밝혀졌습니다. 실험 결과 (1) 독점 MLLM(예: GPT-5)이 개방형 및 의료 모델을 능가하지만, 의사에는 미치지 못함, (2) 의료 MLLM의 성능 편차 큼, (3) 개방형 MLLM은 전체적으로 뒤쳐지지만 특정 작업에서 우수함, (4) MLLM은 복잡한 수술 전 작업에서 크게 부진하며 시각적-임상적 추론 격차를 보였습니다. OmniBrainBench는 뇌 영상 분석에서 MLLM을 평가하고 발전시키는 새로운 기준을 제시하며, 전문가의 임상적 추론과의 격차를 강조합니다.