본 논문은 자연어 쿼리로부터 이미지 영역을 찾아내는 시각적 근거 찾기(Visual Grounding)에 대한 연구를 소개합니다. 특히, 기존의 대규모, 노이즈가 많은 합성 데이터셋에 의존하는 방법론의 한계를 극복하고자, 모델 기반 데이터 필터링과 파라미터 효율적인 미세 조정을 결합한 효율적인 학습 파이프라인을 제안합니다. 480만 개의 합성 예제로부터 정제된 12,000개의 깨끗하고 다양한 인스턴스를 활용하여, 30억 개의 파라미터를 가진 시각-언어 모델을 지도 학습, 사고 연쇄 기반 미세 조정, 그리고 그룹 상대 정책 최적화를 통한 강화 학습 방식으로 훈련했습니다. 필터링된 데이터를 사용한 경량화된 학습 전략을 통해 훈련된 모델은 ScreenSpot, Multimodal-Mind2Web, AndroidControl과 같은 벤치마크에서 더 큰 규모의 기존 모델과 동등하거나 더 나은 성능을 달성했습니다.