Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models
Created by
Haebom
Category
Empty
저자
Zhengtao Zou, Ya Gao, Jiarui Guan, Bin Li, Pekka Marttinen
개요
본 논문은 대규모 시각-언어 모델(LVLM)의 객체 환각 문제를 해결하기 위한 효율적인 프레임워크인 Residual-Update Directed DEcoding Regulation (RUDDER)를 제시한다. RUDDER는 단일 정방향 패스에서 추출한 시각적 증거 벡터인 Contextual Activation Residual Direction (CARD) 벡터와, 모델의 시각적 맥락 이탈 정도에 따라 보정 신호를 적용하는 Bayesian 기반 적응형 게이트를 활용한다. 이를 통해 계산 부하를 최소화하면서 LVLM의 신뢰성을 향상시키는 것을 목표로 한다.