본 논문은 대규모 다중 모달 모델(LMMs)에서 나타나는 '시각적 주의력 싱크(visual attention sink)' 현상을 연구합니다. LMMs는 트랜스포머 디코더에서 텍스트와 시각 토큰 간의 주의력 메커니즘을 활용하여 이미지를 '봅니다'. 하지만 기존 연구는 LMMs가 관련 없는 시각 토큰에도 지속적으로 높은 주의력 가중치를 할당하는 경향이 있음을 보여줍니다. 본 연구는 이러한 현상의 원인을 특정 은닉 상태 차원의 과도한 활성화로 밝히고, 이를 언어 모델에서 발견되는 주의력 싱크와 유사하게 '시각적 주의력 싱크'라 명명합니다. 흥미롭게도, 관련 없는 시각적 싱크 토큰을 제거해도 모델 성능에는 영향이 없다는 것을 발견했습니다. 따라서 본 연구는 이러한 토큰에 대한 주의력을 '잉여 자원'으로 재활용하여 중요한 시각 정보에 대한 주의력을 재분배하는 '시각적 주의력 재분배(VAR)' 기법을 제안합니다. VAR은 추가 학습, 모델, 추론 단계 없이 다양한 LMM과 작업에 적용 가능하며, 일반적인 비전-언어 작업, 시각적 환각 작업, 시각 중심 작업 등에서 성능 향상을 보입니다.