본 논문은 시각 언어 모델(VLMs)의 안전 중요 상황에서의 신뢰성을 평가하기 위해, 200개의 이미지(100개의 대조쌍)로 구성된 VERI(Visual Emergency Recognition Dataset) 데이터셋을 제시합니다. 각 응급 상황 이미지는 다단계 인간 검증 및 반복적 개선을 통해 시각적으로 유사하지만 안전한 이미지와 매칭됩니다. 의료 응급 상황, 사고, 자연 재해 등을 포함하는 100개의 응급 상황과 100개의 안전한 상황에 대해 14개의 VLMs(2B-124B 파라미터)를 위험 식별 및 응급 대응이라는 두 단계 프로토콜을 사용하여 평가합니다. 평가 결과, 모델들은 실제 응급 상황을 잘 식별하지만(70-100% 성공률), 안전한 상황을 위험한 상황으로 잘못 식별하는(31-96% 오류율) 과잉 반응 문제를 보입니다. 모든 모델이 실패한 10가지 시나리오도 존재하며, 이러한 오류의 대부분(88-93%)은 문맥적 과해석 때문입니다. 모델의 크기를 키운다고 해서 이러한 문제가 해결되지 않음을 보여주며, 시각적으로 오해의 소지가 있는 상황에서 문맥적 안전성 평가를 개선하기 위한 목표 지향적 접근 방식이 필요함을 강조합니다.