본 논문은 대규모 비전-언어 모델(LLVM)의 시각적 지시 조정(VIT)에 필요한 방대한 이미지-지시 쌍 데이터셋 생성 비용을 줄이기 위한 새로운 데이터 선택 방법인 Pre-Instruction Data Selection (PreSel)을 제안합니다. 기존 VIT 데이터 선택 방법들이 고품질 이미지-지시 쌍을 선택하는 데 초점을 맞춘 것과 달리, PreSel은 비표시 이미지 중에서 가장 유용한 이미지를 직접 선택하고, 선택된 이미지에 대해서만 지시를 생성합니다. PreSel은 각 비전 작업의 상대적 중요도를 추정하여 작업별 샘플링 예산을 도출하고, 각 작업 내에서 이미지 특징을 클러스터링하여 예산 내에서 가장 대표적인 이미지를 선택합니다. 이를 통해 VIT 데이터 생성 과정에서의 지시 생성 및 LVLM 미세 조정에 대한 계산 오버헤드를 줄입니다. 실험 결과, 이미지의 15%에 대해서만 지시를 생성하여 LLaVA-1.5 및 Vision-Flan 데이터셋에서 전체 데이터 VIT와 비교할 만한 성능을 달성했습니다.