Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention
Created by
Haebom
Category
Empty
저자
Wenbin An, Feng Tian, Sicong Leng, Jiahao Nie, Haonan Lin, QianYing Wang, Ping Chen, Xiaoqin Zhang, Shijian Lu
개요
본 논문은 다양한 다중 모달 작업에서 성공을 거두었음에도 불구하고, 대규모 비전-언어 모델(LVLMs)이 이미지의 실제 객체와 일치하지 않는 생성된 텍스트 응답으로 객체 환각을 자주 발생시키는 문제를 다룹니다. 연구진은 여러 LVLMs을 조사하여 객체 환각의 근본 원인 중 하나가 차별적인 이미지 특징에 대한 부족한 주의에 있다는 것을 밝혔습니다. 특히, LVLMs은 프롬프트와 관련된 지역적 특징 대신 프롬프트와 무관한 전역적 특징에 주로 주의를 기울여 시각적 근거 능력을 약화시키고 객체 환각으로 이어집니다. 이를 해결하기 위해, 본 논문은 응답 생성을 위한 전역적 특징과 시각적 식별을 위한 지역적 특징을 동시에 조합하여 환각을 완화하는 훈련이 필요 없는 플러그 앤 플레이 방식인 AGLA(Assembly of Global and Local Attention)를 제안합니다. 구체적으로, 프롬프트와 관련된 지역적 특징을 이미지에서 포착하는 이미지-프롬프트 매칭 기법을 도입하여 프롬프트와 관련된 콘텐츠는 강조하고 무관한 요소는 억제하는 증강된 이미지 뷰를 생성합니다. 이를 통해 원본 이미지의 생성적 전역적 특징과 증강된 이미지의 차별적 지역적 특징으로부터 얻은 보정된 로짓 분포를 사용하여 환각을 완화합니다. 광범위한 실험을 통해 AGLA가 LVLM 환각 완화에 우수함을 보여주었으며, 차별적 및 생성적 작업 모두에 광범위하게 적용될 수 있음을 입증했습니다. 코드는 https://github.com/Lackel/AGLA 에서 이용 가능합니다.