Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding

Created by
  • Haebom

저자

Yeongjae Cho, Keonwoo Kim, Taebaek Hwang, Sungzoon Cho

개요

대규모 비전-언어 모델(LVLMs)이 이미지 캡션 생성 및 시각적 질문 응답과 같은 작업에서 유용성이 크게 확장되었지만, 존재하지 않는 객체를 포함하거나 기존 객체를 잘못 표현함으로써 시각적 콘텐츠를 부정확하게 반영하는 설명을 생성하는 객체 환각 문제를 여전히 해결하지 못하고 있습니다. 데이터 증강 및 학습 없는 접근 방식과 같은 이전 방법들은 이 문제를 해결하려고 노력했지만, 여전히 확장성 문제에 직면하고 추가적인 외부 모듈에 의존하는 경우가 많습니다. 본 연구에서는 입력 이미지를 하위 이미지로 분할하고 어텐션 맵을 통해 가중치를 할당하여 로짓 분포를 결합하는 새로운 전략인 앙상블 디코딩(ED)을 제안합니다. 또한 로짓 분포를 보정하기 위한 ED 적응형 타당성 제약 조건과 속도가 중요한 애플리케이션을 위해 설계된 변형인 FastED를 제시합니다. 환각 벤치마크에 대한 광범위한 실험을 통해 제안된 방법이 최첨단 성능을 달성함을 보여주어 접근 방식의 효과를 검증합니다.

시사점, 한계점

시사점: 앙상블 디코딩(ED)은 LVLMs의 객체 환각 문제를 효과적으로 해결하는 최첨단 성능을 달성합니다. ED는 속도가 중요한 애플리케이션을 위한 FastED 변형을 제공하여 실용성을 높입니다. 어텐션 맵을 활용한 가중치 할당 전략은 모델의 해석력을 향상시킬 수 있습니다.
한계점: 제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 LVLMs 및 다양한 유형의 이미지에 대한 로버스트니스 평가가 필요합니다. FastED의 속도 향상 정도와 정확도 저하 간의 절충점에 대한 분석이 필요합니다. 특정 하위 이미지 분할 전략의 영향에 대한 추가적인 연구가 필요합니다.
👍