본 논문은 대형 비전-언어 모델(LVLM)의 주요 객체에 대한 주의 집중 시간이 짧다는 점에 착안하여, 지속적인 주의 집중을 통해 시각적 능력을 향상시키고자 하는 연구를 제시한다. Cross-Layer Vision Smoothing (CLVS)라는 새로운 방법을 제안하며, 이는 여러 레이어에 걸쳐 주의 분포를 부드럽게 만드는 비전 메모리를 통합하는 방식이다. CLVS는 위치에 편향되지 않은 시각적 주의를 첫 번째 레이어에서 초기화하고, 이후 레이어에서 이전 레이어의 비전 메모리를 고려하여 주의를 집중시킨다. 비전 메모리는 반복적으로 업데이트되어 주요 객체에 대한 부드러운 주의를 유지한다. 모델의 초중반 레이어에서 시각적 이해가 주로 이루어진다는 점을 고려하여, 불확실성을 사용하여 시각적 이해의 완료를 나타내고 스무딩 프로세스를 종료한다. 3개의 LVLM과 4개의 벤치마크를 사용한 실험 결과, CLVS는 다양한 시각 이해 작업에서 최고 성능을 달성했으며, 이미지 캡셔닝 벤치마크에서도 선두적인 방법들과 유사한 결과를 보였다.