본 논문은 대규모 비전 언어 모델(VLMs)의 불확실하고 모호한 입력에 대한 강건성을 평가합니다. 최근 대규모 VLMs의 발전에도 불구하고, 이상 탐지 및 모호한 조건 하에서의 분류와 같은 불확실성 정량화 작업을 통해, 더 크고 최신의 VLMs는 이전 모델보다 강건성이 향상되었지만, 불확실하거나 이상적인 입력에 직면했을 때 확신에 찬 응답을 생성하는 경향(환각)이 여전히 존재함을 밝힙니다. ImageNet과 같은 자연 이미지의 경우, 모델에게 불확실한 예측을 삼가도록 프롬프트하는 간단한 방법으로 상당한 신뢰성 향상을 달성할 수 있음을 보여줍니다. 그러나 은하 형태 분류와 같은 도메인 특정 작업에서는 전문 지식 부족으로 인해 신뢰할 수 있는 불확실성 추정이 어렵습니다. 마지막으로, 모델의 내부 불확실성을 드러내는 캡션 다양성 기반의 새로운 메커니즘을 제안하여, 레이블이 지정되지 않은 데이터에 의존하지 않고 모델이 성공적으로 예측을 삼가할 때를 예측할 수 있도록 합니다.