본 논문은 의료 영상 분야에서 대규모 비전-언어 모델(LVLMs)의 성능과 신뢰성을 평가하기 위한 새로운 벤치마크인 RadVUQA를 제시합니다. RadVUQA는 해부학적 이해, 다중 모드 이해, 정량 및 공간 추론, 생리학적 지식, 강건성 등 다섯 가지 측면에서 LVLMs을 종합적으로 평가합니다. 기존의 VQA 기반 평가 방식을 넘어, LVLMs의 심층적 특징을 고려하여 설계되었으며, 실험 결과 기존의 일반적인 LVLMs과 의료 특화 LVLMs 모두 다중 모드 이해 및 정량적 추론 능력이 부족함을 보여줍니다. 이는 기존 LVLMs와 임상의 간의 큰 격차를 보여주며, 더욱 강력하고 지능적인 LVLMs의 개발 필요성을 강조합니다.