Vision-Language Model (VLM)이 미세한 이미지 이해를 요구하는 작업에서 어려움을 겪는 문제를 해결하기 위해, CropVLM을 소개합니다. CropVLM은 VLM이 관련 이미지 영역을 동적으로 "확대"하여 세밀한 세부 사항을 포착할 수 있도록 성능을 향상시키는 저비용 외부 방법입니다. 이는 강화 학습을 사용하여 사람의 레이블이 지정된 경계 상자나 값비싼 합성 평가 없이 학습되며, 기존 VLM에 추가하여 성능을 향상시킬 수 있습니다. 특히 대상 VLM의 도메인 밖의 벤치마크에서 높은 해상도 이미지 이해가 필요한 작업에 대해 상당한 개선을 제공하며, VLM을 수정하거나 미세 조정하지 않아도 되므로 파괴적 망각을 방지합니다.