본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 객체 환각을 완화하기 위해 널리 사용되는 대조적 디코딩 전략의 한계점을 해결하는 새로운 기법인 Visual Amplification Fusion (VAF)을 제안한다. 기존 대조적 디코딩 전략은 언어적 사전 지식에 대한 과도한 의존을 줄여 시각적 입력에 근거한 정확한 출력을 생성하지만, 언어적 일관성과 정확성을 저해하고 연산 속도를 늦추는 단점이 있다. VAF는 모델의 중간 계층에서 시각 신호에 대한 주의를 강화하여 모달 융합을 개선함으로써, 추가적인 학습이나 외부 도구 없이 환각을 줄이고 추론 속도를 유지하면서 일관성과 정확성을 유지한다.