Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

Created by
  • Haebom
Category
Empty

저자

Wenbin An, Feng Tian, Sicong Leng, Jiahao Nie, Haonan Lin, QianYing Wang, Ping Chen, Xiaoqin Zhang, Shijian Lu

개요

본 논문은 다양한 다중 모달 작업에서 성공을 거두었음에도 불구하고, 대규모 비전-언어 모델(LVLMs)이 이미지의 실제 객체와 일치하지 않는 생성된 텍스트 응답으로 객체 환각을 자주 발생시키는 문제를 다룹니다. 연구진은 여러 LVLMs을 조사하여 객체 환각의 근본 원인 중 하나가 차별적인 이미지 특징에 대한 부족한 주의에 있다는 것을 밝혔습니다. 특히, LVLMs은 프롬프트와 관련된 지역적 특징 대신 프롬프트와 무관한 전역적 특징에 주로 주의를 기울여 시각적 근거 능력을 약화시키고 객체 환각으로 이어집니다. 이를 해결하기 위해, 본 논문은 응답 생성을 위한 전역적 특징과 시각적 식별을 위한 지역적 특징을 동시에 조합하여 환각을 완화하는 훈련이 필요 없는 플러그 앤 플레이 방식인 AGLA(Assembly of Global and Local Attention)를 제안합니다. 구체적으로, 프롬프트와 관련된 지역적 특징을 이미지에서 포착하는 이미지-프롬프트 매칭 기법을 도입하여 프롬프트와 관련된 콘텐츠는 강조하고 무관한 요소는 억제하는 증강된 이미지 뷰를 생성합니다. 이를 통해 원본 이미지의 생성적 전역적 특징과 증강된 이미지의 차별적 지역적 특징으로부터 얻은 보정된 로짓 분포를 사용하여 환각을 완화합니다. 광범위한 실험을 통해 AGLA가 LVLM 환각 완화에 우수함을 보여주었으며, 차별적 및 생성적 작업 모두에 광범위하게 적용될 수 있음을 입증했습니다. 코드는 https://github.com/Lackel/AGLA 에서 이용 가능합니다.

시사점, 한계점

시사점:
LVLMs의 객체 환각 문제의 근본 원인을 규명하고, 이를 해결하기 위한 효과적인 방법인 AGLA를 제시했습니다.
훈련이 필요 없는 플러그 앤 플레이 방식으로 다양한 LVLMs에 적용 가능성이 높습니다.
차별적 및 생성적 작업 모두에서 환각 완화에 효과적임을 실험적으로 입증했습니다.
한계점:
AGLA의 성능이 특정 유형의 이미지나 프롬프트에 대해서는 제한적일 수 있습니다.
다양한 LVLMs에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다.
이미지-프롬프트 매칭 기법의 성능 향상을 위한 추가적인 연구가 필요할 수 있습니다.
👍