본 논문은 다중 모달 대규모 언어 모델(MLLMs)의 시각적 지시 조정을 위한 새로운 데이터 선택 방법론을 제안합니다. 기존의 방법론이 단일 신뢰도 점수에 의존하거나 시간 소모적인 하류 작업을 사용하는 것과 달리, 본 논문에서는 이미지-텍스트 상관관계와 모델 당황도를 활용하여 데이터 품질을 평가하고 선택하는 방법을 제시합니다. 이를 통해 데이터 품질을 2차원 공간에 매핑하여 다양한 품질의 데이터를 선택하고, 작업 유형 설정이 데이터 품질에 미치는 영향을 분석하며, 다단계 커리큘럼 학습을 위한 데이터셋을 구성할 수 있습니다. 다양한 데이터셋에 대한 실험 결과, 제안된 방법론이 기존 방법보다 5가지 주요 성능 지표에서 상당한 향상을 보임을 확인했습니다. 코드, 데이터 및 모델은 공개적으로 제공됩니다.