본 논문은 시각 언어 모델(VLMs)의 불확실성 정량화에 대한 종합적인 벤치마킹 연구를 제시합니다. 16개의 최첨단 VLM(오픈 및 클로즈 소스)을 6개의 다중 모드 데이터셋과 3가지의 서로 다른 채점 함수를 사용하여 평가함으로써, 모델의 크기가 클수록 불확실성 정량화 성능이 더 좋다는 것을 보여줍니다. 더 확신적인 모델이 더 높은 정확도를 달성하지만, 수학 및 추론 작업에서는 다른 영역에 비해 모든 모델에서 불확실성 성능이 저조했습니다. 이 연구는 다중 모드 시스템에서 신뢰할 수 있는 불확실성 평가의 기반을 마련합니다.