Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models

Created by
  • Haebom

저자

Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun

개요

대규모 시각-언어 모델(LVLM)은 다양한 작업에서 놀라운 성공을 거두었지만, 입력 이미지에 없는 객체에 대한 설명을 생성하는 객체 환각과 같은 중요한 과제가 남아 있습니다. 본 연구에서는 시각 인코더(VE) 내의 불확실한 시각 토큰이 객체 환각의 주요 원인이라고 주장합니다. 통계 분석 결과, 높은 인식 불확실성을 가진 시각 토큰과 환각 발생 사이에 긍정적인 상관관계가 있음을 발견했습니다. 또한, 작은 적대적 섭동 하에서 큰 표현 편차를 보이는 초기 VE 레이어의 시각 토큰이 높은 인식 불확실성을 나타냄을 이론적 및 경험적으로 보여줍니다. 이러한 발견을 바탕으로 VE만 수정하여 객체 환각을 완화하는 간단하지만 효과적인 전략을 제안합니다. 이 방법은 적대적 섭동을 사용한 프록시 방법으로 불확실한 시각 토큰을 효율적으로 식별하고, VE 중간 레이어의 자기 주의 과정에서 이러한 불확실한 시각 토큰을 마스킹하여 시각적 인코딩에 미치는 영향을 억제함으로써 환각을 완화합니다. 광범위한 실험을 통해 제안하는 방법이 LVLM에서 객체 환각을 유의하게 감소시키며, 다른 기존 연구들과 시너지 효과를 낼 수 있음을 보였습니다.

시사점, 한계점

시사점:
불확실한 시각 토큰이 객체 환각의 주요 원인임을 밝힘.
적대적 섭동을 이용한 VE 내 불확실한 시각 토큰 식별 및 마스킹 기법 제안.
LVLM의 객체 환각 현상을 유의미하게 감소시키는 효과 입증.
기존 연구와 시너지 효과 가능성 제시.
한계점:
VE만 수정하는 방식으로 객체 환각을 완화하므로, 언어 모델 자체의 문제점은 해결하지 못함.
적대적 섭동을 사용하는 방식의 계산 비용이 존재.
다양한 LVLM 아키텍처에 대한 일반화 가능성 추가 검증 필요.
👍