본 논문은 자연어 쿼리로부터 이미지 영역을 찾아내는 시각적 근거(Visual grounding) 작업에 대한 연구를 제시합니다. 특히, 방대한 양의 노이즈가 있는 합성 데이터에 의존하는 기존 방법의 문제점을 해결하고자, 모델 기반 데이터 필터링과 매개변수 효율적인 미세 조정을 결합한 효율적인 훈련 파이프라인을 제안합니다. 480만 개의 합성 예제에서 12,000개의 깨끗하고 다양한 인스턴스를 선별하여 30억 개의 매개변수를 가진 Vision-Language 모델을 훈련합니다. 이 모델은 지도 학습 미세 조정, 사고 사슬(chain-of-thought) 기반 미세 조정, 그리고 그룹 상대 정책 최적화를 통한 강화 학습 방식을 사용하여 학습됩니다. 결과적으로, 필터링된 데이터를 사용하고 가벼운 훈련 전략을 적용한 모델이 ScreenSpot, Multimodal-Mind2Web, AndroidControl과 같은 벤치마크에서 더 큰 규모의 기존 모델과 동등하거나 더 나은 성능을 달성했습니다.