Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are vision language models robust to uncertain inputs?

Created by
  • Haebom

저자

Xi Wang, Eric Nalisnick

개요

본 논문은 대규모 비전 언어 모델(VLMs)의 불확실하고 모호한 입력에 대한 강건성을 평가합니다. 최근 대규모 VLMs의 발전에도 불구하고, 이상 탐지 및 모호한 조건 하에서의 분류와 같은 불확실성 정량화 작업을 통해, 더 크고 최신의 VLMs는 이전 모델보다 강건성이 향상되었지만, 불확실하거나 이상적인 입력에 직면했을 때 확신에 찬 응답을 생성하는 경향(환각)이 여전히 존재함을 밝힙니다. ImageNet과 같은 자연 이미지의 경우, 모델에게 불확실한 예측을 삼가도록 프롬프트하는 간단한 방법으로 상당한 신뢰성 향상을 달성할 수 있음을 보여줍니다. 그러나 은하 형태 분류와 같은 도메인 특정 작업에서는 전문 지식 부족으로 인해 신뢰할 수 있는 불확실성 추정이 어렵습니다. 마지막으로, 모델의 내부 불확실성을 드러내는 캡션 다양성 기반의 새로운 메커니즘을 제안하여, 레이블이 지정되지 않은 데이터에 의존하지 않고 모델이 성공적으로 예측을 삼가할 때를 예측할 수 있도록 합니다.

시사점, 한계점

시사점:
대규모 VLMs의 강건성 향상을 확인했으나, 여전히 불확실한 입력에 대한 환각 문제 존재.
프롬프트 조정을 통한 신뢰성 향상 가능성 제시 (ImageNet과 같은 자연 이미지).
모델의 내부 불확실성을 측정하는 새로운 캡션 다양성 기반 메커니즘 제안.
한계점:
도메인 특정 작업(예: 은하 형태 분류)에서는 전문 지식 부족으로 인한 신뢰할 수 있는 불확실성 추정의 어려움.
제안된 캡션 다양성 기반 메커니즘의 일반화 성능 및 효율성에 대한 추가 연구 필요.
👍