본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 객체 환각을 완화하기 위해 널리 사용되는 대조적 디코딩 전략의 한계를 다룹니다. 대조적 디코딩은 언어적 사전 지식에 대한 과도한 의존을 줄여 시각적 입력에 기반한 정확한 출력을 생성하지만, 언어적 사전 지식을 과도하게 억제하여 일관성과 정확성을 저해하고, 대조적 입력 처리로 인해 추론 속도가 느려지는 단점이 있습니다. 이를 해결하기 위해, 본 논문은 모델의 중간 계층에서 시각 신호에 대한 주의를 강화하는 플러그 앤 플레이 기술인 Visual Amplification Fusion (VAF)을 제안합니다. VAF는 시각적 특징을 더 효과적으로 포착하여 언어 모달에 대한 모델의 편향을 줄여 환각을 감소시키면서 추론 속도와 일관성, 정확성은 유지합니다.