Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models

작성자

Haebom

카테고리

Empty

저자

Zhengtao Zou, Ya Gao, Jiarui Guan, Bin Li, Pekka Marttinen

💡 개요

대규모 비전-언어 모델(LVLM)은 텍스트 생성 시 시각적 정보 희석으로 인해 환각 현상이 발생하는 문제를 겪습니다. 본 논문은 모델의 사전 학습 잔차 업데이트에서 추출한 'CARD'라는 시각적 증거 방향을 동적으로 주입하는 RUDDER 프레임워크를 제안하여 이를 해결합니다. Beta Gate라는 적응형 게이트를 통해 시각적 앵커가 필요한 경우에만 적용되어 환각을 효과적으로 완화하면서도 높은 처리 속도를 유지합니다.

🔑 시사점 및 한계

•

시각 정보 희석 문제 해결: RUDDER는 시각적 앵커를 지속적으로 제공하여 LVLM의 환각 현상을 효과적으로 줄입니다.

•

저비용 고효율: 기존 방법론에 비해 상당한 지연 시간 증가 없이 환각 완화 성능을 달성합니다.

•

다양한 모델 및 작업 적용 가능성: LLaVA, Idefics2 등 다양한 LVLM 아키텍처와 여러 벤치마크에서 일관된 성능 향상을 보여줍니다.

•

기존 연구 대비 명확한 개선점: CHAIR_S 및 CHAIR_i 점수에서 평균 20% 이상의 상대적 감소를 보이며, 기존 대비 상당한 환각 감소 효과를 입증했습니다.

•

Beta Gate의 효과: 적응형 게이트 메커니즘은 시각적 힌트의 적용 시점을 조절하여 불필요한 개입을 방지하고 모델의 신뢰도를 높입니다.

PDF 보기

Made with Slashpage