본 논문은 비전-언어 모델(VLMs)의 복잡한 시각 환경에서의 성능 저하 문제를 해결하기 위해, VLMs의 어텐션 패턴을 분석하고 이를 개선하는 새로운 방법을 제시합니다. 연구 결과, 시각적 복잡성은 어텐션 엔트로피와 강한 상관관계를 가지며, 이는 추론 성능 저하로 이어짐을 밝혔습니다. 또한, 어텐션은 얕은 레이어에서는 전역 스캐닝에서 깊은 레이어에서는 집중된 수렴으로 점진적으로 정제되며, 수렴 정도는 시각적 복잡성에 따라 결정됨을 발견했습니다. 이러한 통찰력을 바탕으로, 픽셀 단위의 어텐션 대조를 통해 작업 관련 시각 신호를 추출하는 훈련이 필요 없는 방법인 CARVE(Contrastive Attention Refinement for Visual Enhancement)를 제안합니다. 실험 결과, CARVE는 오픈소스 모델에서 최대 75%의 성능 향상을 달성했습니다.