Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding

Created by
  • Haebom

저자

Shunqi Mao, Chaoyi Zhang, Weidong Cai

개요

기존의 비전-언어 모델(VLMs)은 시각적 환각(visual hallucination) 문제를 겪는데, 이는 생성된 응답이 시각적 입력에 근거하지 않은 부정확성을 포함하는 현상을 말합니다. 모델 미세조정 없이 이 문제를 해결하려는 시도는 주로 대조적으로 언어 편향을 줄이거나 디코딩 중 시각적 임베딩의 가중치를 증폭하여 환각을 완화합니다. 그러나 이러한 접근 방식은 미세한 시각적 세부 사항을 포착하는 능력이 제한적입니다. 본 연구에서는 주의 메커니즘을 기반으로 관련 시각 토큰을 반복적으로 분리하고 해당 영역을 확대하여 모델이 디코딩 중 미세한 시각적 세부 사항에 집중하도록 유도하는 새로운 시각적 디코딩 방법인 Perception Magnifier (PM)를 제안합니다. PM은 각 디코딩 단계에서 구조적 및 문맥적 정보를 유지하면서 중요 영역을 확대함으로써 VLM이 시각적 입력에 대한 정밀 검토를 강화하여 더 정확하고 충실한 응답을 생성할 수 있도록 합니다. 광범위한 실험 결과는 PM이 환각 완화뿐만 아니라 언어 생성을 향상시키는 동시에 강력한 추론 능력을 유지함을 보여줍니다.

시사점, 한계점

시사점:
미세한 시각적 세부 사항을 포착하여 시각적 환각 문제를 효과적으로 완화하는 새로운 시각적 디코딩 방법(PM) 제시.
기존 방법보다 우수한 환각 완화 성능과 향상된 언어 생성 능력을 실험적으로 입증.
강력한 추론 능력을 유지하면서 시각적 정확성을 높이는 데 성공.
한계점:
PM의 성능 향상이 특정 데이터셋이나 모델 아키텍처에 국한될 가능성.
더욱 복잡하고 다양한 시각적 환경에 대한 일반화 능력에 대한 추가 연구 필요.
계산 비용 증가 가능성.
👍