Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models

Created by

Haebom

저자

Jialin Wu, Wei Shi, Han Shen, Peigui Qi, Kunsheng Tang, Zhicong Huang, Binghao Wang, Zhou Yang

💡 개요

대규모 비전-언어 모델(LVLMs)은 객체 환각(hallucination) 현상에 취약하며, 이는 시각적 특징과 사전 학습된 텍스트 표현이 깊은 신경망 계층에서 얽히기 때문입니다. 본 논문은 얽힌 정보를 명시적으로 재활성화하는 훈련 없는 프레임워크인 REVIS를 제안합니다. REVIS는 잠재 공간 기하학을 활용하여 순수한 시각 정보 벡터를 추출하고, 억제가 발생하는 정확한 깊이에서만 최소한의 연산 비용으로 희소 개입을 수행하여 시각 정보를 복원합니다.

🔑 시사점 및 한계

•

LVLMs의 객체 환각 문제를 해결하기 위해 시각 정보의 억제 메커니즘을 이해하고 이를 교정하는 새로운 훈련 없는 프레임워크(REVIS)를 제시합니다.

•

REVIS는 잠재 공간의 기하학적 속성을 활용하여 효율적으로 시각 정보를 복원하며, 객체 환각을 약 19% 감소시키는 효과를 보였습니다.

•

제안된 방법론은 연산 비용이 적으면서도 모델의 일반적인 추론 능력은 유지한다는 장점을 가집니다.

•

REVIS가 다양한 LVLMs 아키텍처와 데이터셋에서 얼마나 효과적인지에 대한 추가적인 탐구가 필요하며, 개입의 정밀도를 더욱 향상시킬 수 있는 방안이 연구될 필요가 있습니다.

PDF 보기

Made with Slashpage