Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition

Created by
  • Haebom

저자

Dasol Choi, Seunghyun Lee, Youngsook Song

개요

본 논문은 시각 언어 모델(VLMs)의 안전 중요 상황에서의 신뢰성을 평가하기 위해, 200개의 이미지(100개의 대조쌍)로 구성된 VERI(Visual Emergency Recognition Dataset) 데이터셋을 제시합니다. 각 응급 상황 이미지는 다단계 인간 검증 및 반복적 개선을 통해 시각적으로 유사하지만 안전한 이미지와 매칭됩니다. 의료 응급 상황, 사고, 자연 재해 등을 포함하는 100개의 응급 상황과 100개의 안전한 상황에 대해 14개의 VLMs(2B-124B 파라미터)를 위험 식별 및 응급 대응이라는 두 단계 프로토콜을 사용하여 평가합니다. 평가 결과, 모델들은 실제 응급 상황을 잘 식별하지만(70-100% 성공률), 안전한 상황을 위험한 상황으로 잘못 식별하는(31-96% 오류율) 과잉 반응 문제를 보입니다. 모든 모델이 실패한 10가지 시나리오도 존재하며, 이러한 오류의 대부분(88-93%)은 문맥적 과해석 때문입니다. 모델의 크기를 키운다고 해서 이러한 문제가 해결되지 않음을 보여주며, 시각적으로 오해의 소지가 있는 상황에서 문맥적 안전성 평가를 개선하기 위한 목표 지향적 접근 방식이 필요함을 강조합니다.

시사점, 한계점

시사점: VLMs의 안전 중요 상황에서의 신뢰성에 대한 심각한 문제점을 제기하고, 문맥적 안전성 평가 개선의 필요성을 강조합니다. 모델의 크기 증가만으로는 문제 해결이 불가능함을 보여줍니다. VERI 데이터셋은 VLMs의 안전성 평가를 위한 중요한 벤치마크를 제공합니다.
한계점: VERI 데이터셋의 규모가 상대적으로 작습니다. 다양한 유형의 응급 상황과 안전 상황을 더욱 포괄적으로 다루기 위한 데이터셋 확장이 필요합니다. 평가 프로토콜의 세부적인 내용이 부족하여, 재현성 및 일반화 가능성에 대한 검토가 필요합니다.
👍