Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
Created by
Haebom
Category
Empty
저자
Liu Yu, Zhonghao Chen, Ping Kuang, Zhikun Feng, Fan Zhou, Lan Wang, Gillian Dobbie
개요
대형 시각-언어 모델(LVLM)에서 발생하는 객체 환각 문제를 해결하기 위해, 인과 관계를 기반으로 한 프레임워크인 Owl을 제안합니다. Owl은 시각적 및 텍스트적 주의의 상호 작용을 고려하여 환각 과정을 모델링하며, VTACR (Visual-to-Textual Attention Contribution Ratio)이라는 새로운 지표를 사용하여 디코딩 중의 모달리티 기여 불균형을 정량화합니다. VTACR 신호에 따라 토큰 및 레이어별 주의를 동적으로 조정하는 미세 조정 주의 개입 메커니즘과, 시각적으로 근거된 예측과 환각된 예측을 강조하는 이중 경로 대조 디코딩 전략을 사용합니다. POPE 및 CHAIR 벤치마크에서 Owl은 환각 감소를 크게 달성하여 충실도 측면에서 새로운 SOTA를 달성했습니다.
시사점, 한계점
•
시사점:
◦
LVLM의 객체 환각 문제를 해결하기 위한 새로운 인과 기반 프레임워크 제안.
◦
VTACR 지표를 활용하여 시각 및 텍스트적 주의의 불균형을 측정하고, 환각 발생 가능성을 예측.
◦
미세 조정 주의 개입 메커니즘과 이중 경로 대조 디코딩 전략을 통해 환각을 효과적으로 완화.