본 논문은 Vision-Language Model (VLM)의 instruction tuning을 위한 효율적인 프레임워크인 PROGRESS (PRioritized cOncept learninG via Relative Error-driven Sample Selection)를 제안합니다. PROGRESS는 모델의 학습 진행 상황을 추적하여 다음에 학습할 데이터를 동적으로 선택함으로써 데이터 및 컴퓨팅 자원을 효율적으로 사용합니다. 기존 방법과 달리 사전 주석이 필요 없고, 필요에 따라서만 답변을 쿼리하며, 보조 VLM의 추가적인 감독에 의존하지 않고, 데이터 선택을 위한 계산량이 많은 그래디언트 계산을 피합니다. 다양한 규모의 instruction tuning 데이터셋에 대한 실험을 통해 PROGRESS가 기존 최첨단 기법보다 훨씬 적은 데이터와 감독으로 일관되게 우수한 성능을 보임을 보여줍니다. 또한, 다양한 아키텍처에 대한 강력한 일반화 및 더 큰 모델로의 전이 가능성을 보여줌으로써 효율적인 학습을 위한 확장 가능한 솔루션임을 검증합니다.