Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens

Created by
  • Haebom

저자

Sohee Kim, Soohyun Ryu, Joonhyung Park, Eunho Yang

개요

본 논문은 대규모 비전-언어 모델(LVLMs)이 시각적 증거가 없는 텍스트 입력을 이미지의 일부로 잘못 인식하여 오류를 발생시키는 현상을 밝힙니다. 연구진은 LVLMs 내부에서 텍스트 개념이 이미지에 근거하는지 판단하는 능력을 조사하여, 시각적 부재를 독특한 활성 패턴으로 신호하는 피드포워드 네트워크(FFN) 뉴런의 특정 하위 집합인 시각적 부재 인식(VA) 뉴런을 발견했습니다. 이 패턴을 활용하여 입력 토큰이 시각적으로 근거하는지 분류하는 탐지 모듈을 개발하고, 이 예측에 따라 질문 프롬프트를 재해석하거나 생성 중에 감지된 부재 토큰을 대체하여 출력을 개선하는 방법을 제안합니다. 광범위한 실험을 통해 제안된 방법이 모델의 시각적 존재에 대한 잘못된 가정 경향을 효과적으로 완화하고 다양한 LVLMs에서 일반성을 갖는다는 것을 보여줍니다.

시사점, 한계점

시사점:
LVLMs의 시각적 정보 처리 과정에 대한 새로운 이해를 제공합니다.
시각적 근거가 없는 텍스트 입력을 감지하고 출력을 개선하는 새로운 방법을 제시합니다.
다양한 LVLMs에 적용 가능한 일반적인 방법론을 제시합니다.
한계점:
VA 뉴런의 활성 패턴이 모든 LVLMs에서 동일하게 나타나는지에 대한 추가 연구가 필요합니다.
제안된 방법의 성능이 다양한 유형의 이미지와 텍스트 입력에 대해 얼마나 일반화되는지에 대한 추가 검증이 필요합니다.
복잡한 시각적 추론이 필요한 경우의 성능에 대한 추가 연구가 필요합니다.
👍