Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing

Created by
  • Haebom

저자

Weixing Wang, Zifeng Ding, Jindong Gu, Rui Cao, Christoph Meinel, Gerard de Melo, Haojin Yang

개요

본 논문은 이산 이미지 토큰화를 사용하는 대규모 비전-언어 모델(LVLMs)이 환각(hallucination) 현상을 보이는 원인을 조사하고 이를 완화하는 방법을 제시합니다. 연구진은 LVLMs의 환각이 훈련 과정에서 발생하는 시각적 사전 지식(visual priors) 때문이라고 가정합니다. 특정 이미지 토큰이 같은 공간 영역에서 자주 공동 발생하고 공유 객체를 나타낼 때, 이 토큰들은 해당 객체의 언어적 표현과 강하게 연관됩니다. 결과적으로 모델은 현재 존재하지 않는 토큰을 불러와 환각을 일으킬 수 있습니다. 이를 검증하기 위해, 연구진은 분할 데이터셋을 사용하여 이미지 토큰의 공동 발생 그래프를 구성하고, 대조 학습과 군집화 방법을 사용하여 유사한 시각적 맥락에서 자주 공동 발생하는 토큰을 그룹화합니다. 실험 결과, 환각은 주로 입력에서 지배적인 토큰이 있는 클러스터와 관련이 있으며, 특히 해당 클러스터에 존재하지 않는 토큰이 이미지에 있는 토큰보다 환각된 객체와 훨씬 더 높은 상관관계를 보이는 것을 발견했습니다. 이러한 관찰을 바탕으로, 연구진은 생성 과정 중에 시각적으로 없는 토큰의 영향을 억제하여 환각을 완화하는 방법을 제안합니다. 실험 결과, 제안된 방법은 표현력을 유지하면서 환각을 줄이는 것으로 나타났습니다.

시사점, 한계점

시사점:
LVLMs의 환각 현상 원인을 시각적 사전 지식과 공동 발생하는 토큰의 영향으로 규명.
환각 완화를 위한 새로운 방법 제시 및 효과 검증.
이미지 토큰의 공동 발생 그래프 분석을 통한 환각 이해 증진.
한계점:
제안된 방법의 일반성 및 다양한 LVLMs에 대한 적용성 추가 연구 필요.
특정 분할 데이터셋에 의존하는 한계 존재.
다른 유형의 환각 또는 오류에 대한 일반화 가능성 검토 필요.
👍