본 논문은 사전 학습된 거대 비전-언어 모델(LVLM)의 일부 어텐션 헤드가 텍스트 설명에 대응하는 이미지 영역을 국한하는 강력한 능력을 지닌다는 것을 발견했습니다. 이러한 어텐션 헤드를 '국한 헤드'라 명명하고, 이를 활용하여 추가적인 학습 없이도 효과적인 시각적 기반 구축 프레임워크를 제시합니다. 놀랍게도, 수천 개의 어텐션 헤드 중 단 세 개만으로도 기존의 미세 조정 기반 방법들과 비교하여 경쟁력 있는 국한 성능을 달성했습니다. 이는 LVLMs가 텍스트와 이미지 간의 관계를 깊이 이해하고, 정보가 풍부한 텍스트 출력을 생성하기 위해 관련 이미지 영역에 집중함으로써 객체를 자연스럽게 국한할 수 있음을 시사합니다. 모든 소스 코드는 공개될 예정입니다.