본 논문은 대규모 언어 모델(LLM)의 지시어 학습 효율을 높이고 데이터 중복을 줄이기 위한 새로운 데이터 선택 프레임워크인 T-SHIRT(Token-Selective HIeRarchical Data Selection for Instruction Tuning)를 제안합니다. 기존의 LLM 기반 점수 함수(예: Instruction-Following Difficulty)는 샘플 단위로 품질을 평가하고, 점수 산출 방식의 견고성을 고려하지 않아 표면적인 어휘적 특징으로 인해 샘플이 선택될 수 있다는 한계점을 지적합니다. T-SHIRT는 토큰 단위의 정보성을 고려하고, 주변 샘플의 품질과 일관성을 평가하여 견고하고 신뢰할 수 있는 샘플을 선택합니다. 실험 결과, T-SHIRT를 사용하여 선택된 5%의 데이터로 학습된 모델이 전체 데이터셋으로 학습된 모델보다 최대 5.48점의 성능 향상을 보였으며, 다양한 LLM과 학습 데이터 크기에 걸쳐 기존 최첨단 데이터 선택 기법들을 능가하는 효율성과 비용 효과를 보였습니다.