본 논문은 다중 모드 대규모 언어 모델(MLLM)이 시각 정보를 포함하는 추론 과정에서 시각 정보에 대한 집중력이 점차 저하되는 현상(text-over-relied outputs)을 다룹니다. 연구진은 장문의 추론 과정 중간에 이미지 입력을 제거하는 실험을 통해, 모델이 텍스트 출력에 지나치게 의존함을 확인하였습니다. 이를 해결하기 위해, 중요한 추론 단계에서만 이미지 입력을 제공하고, 중복된 시각 토큰을 동적 프루닝하는 Take-along Visual Conditioning (TVC) 전략을 제안합니다. TVC는 다섯 가지 수학적 추론 벤치마크에서 평균 3.4% 향상된 성능을 보이며, 최첨단 성능을 달성했습니다.