본 논문은 데이터 부족 환경에서 시각적 그라운딩(Visual Grounding)을 효과적으로 학습하는 방법을 연구합니다. 기존 연구에서 발생하는 레이블 정렬 문제를 해결하기 위해, '상자 밖 페인팅 및 필터링(Paint Outside the Box and Filter, POBF)'이라는 새로운 프레임워크를 제안합니다. POBF는 상자 밖 영역을 채우는 방식으로 이미지를 합성하고, 어려움 점수와 과적합 점수를 페널티 항으로 조절하여 최적의 훈련 데이터를 선택하는 혁신적인 필터링 기법을 활용합니다. 네 개의 벤치마크 데이터셋에 대한 광범위한 실험을 통해 POBF가 실제 데이터만 사용하는 방법보다 평균 5.83% 향상된 성능을 달성하고, 주요 기준 모델보다 2.29%-3.85% 높은 정확도를 보임을 입증합니다. 또한 다양한 생성 모델, 훈련 데이터 크기 및 모델 아키텍처에서 POBF의 강건성과 일반화 성능을 검증합니다.