본 논문은 효과적인 instruction-tuning 데이터셋 구축에 필수적인 데이터 품질과 다양성을 향상시키기 위한 새로운 방법인 MIG (Maximize Information Gain)를 제안합니다. 기존 방법들이 개별 데이터의 품질에만 집중하고, 다양성을 유지하기 위해 휴리스틱 규칙을 사용하여 최적이 아닌 결과를 초래하는 한계를 극복하고자, 데이터셋의 정보 내용을 정량화하는 통합적 방법을 제시합니다. 이는 라벨 그래프를 구성하여 의미 공간을 모델링하고, 그래프 내 정보 분포를 기반으로 다양성을 정량화합니다. 이를 바탕으로 의미 공간에서 정보 이득을 극대화하는 효율적인 샘플링 방법을 도입하여, 다양하고 고품질의 데이터셋을 선택합니다. 다양한 데이터셋과 기본 모델에 대한 실험 결과, MIG는 기존 최첨단 방법들을 능가하는 성능을 보이며, 특히 Tulu3 데이터셋의 5%만을 MIG로 샘플링하여 fine-tuning한 모델이 전체 데이터셋으로 학습된 공식 SFT 모델과 유사한 성능을 달성하고, AlpacaEval과 Wildbench에서 각각 +5.73%, +6.89%의 성능 향상을 보였습니다.