Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models

Created by
  • Haebom

저자

Sangmin Woo, Donguk Kim, Jaehyuk Jang, Yubin Choi, Changick Kim

개요

본 논문은 대규모 비전 언어 모델(LVLMs)이 이미지에 대한 잘못되거나 오해의 소지가 있는 특징을 부여하는 환각(hallucination) 문제를 다룹니다. LVLMs가 질의와 관련 없는 배경이나 비객체 영역과 같은 이미지 토큰의 작은 하위 집합(blind tokens)에 불균형적으로 집중하는 현상을 관찰하고, 이러한 주의력 불일치가 환각 응답 생성의 주요 원인이라고 가정합니다. 이를 해결하기 위해, 기존의 어텐션 메커니즘을 수정하지 않고 테스트 시간에 blind tokens의 영향을 동적으로 재조정하는 Attentional Vision Calibration (AvisC) 방법을 제안합니다. AvisC는 계층별 어텐션 분포를 분석하여 blind tokens를 식별하고, 대조적인 디코딩 전략을 사용하여 원래 로짓과 blind-token-biased 로짓의 영향을 균형 있게 조정합니다. POPE, MME, AMBER와 같은 표준 벤치마크 실험을 통해 AvisC가 LVLMs의 환각을 효과적으로 줄이는 것을 보여줍니다.

시사점, 한계점

시사점:
LVLMs의 환각 문제를 야기하는 주요 원인 중 하나로 blind tokens에 대한 과도한 집중을 제시합니다.
기존 모델을 수정하지 않고 테스트 시간에 환각을 줄일 수 있는 효과적인 방법인 AvisC를 제안합니다.
POPE, MME, AMBER 등 다양한 벤치마크에서 AvisC의 효과를 실험적으로 검증합니다.
한계점:
AvisC는 테스트 시간에만 적용되는 방법으로, 모델의 학습 과정에는 영향을 미치지 않습니다.
blind tokens의 정의 및 식별 기준이 모델 및 데이터셋에 따라 달라질 수 있습니다.
제안된 방법의 일반화 성능 및 다양한 LVLMs에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.
👍