본 논문은 대규모 언어 모델(LLM)의 지시어 튜닝을 위한 새로운 방법인 MergeIT을 제안합니다. 기존의 지시어 튜닝 데이터 선택 방법은 LLM을 지시어 품질 평가자로 활용하여 높은 계산 비용과 데이터 다양성 감소라는 문제점을 가지고 있습니다. MergeIT는 LLM 기반의 선택이 아닌 합성에 초점을 맞춰 이러한 문제를 해결합니다. 두 단계로 구성된 MergeIT는 첫째, 주제 기반 필터링을 통해 데이터셋의 중복을 제거하고 다양성을 유지합니다. 둘째, 유사한 의미를 가진 지시어들을 LLM 기반으로 합성하여 더욱 정보가 풍부하고 크기가 작은 훈련 데이터를 생성합니다. 실험 결과, MergeIT는 효율적이고 다양하며 확장 가능한 지시어 선택 및 합성을 가능하게 함을 보여주며, 기존의 점수 기반 선택 방법에 대한 유망한 대안임을 제시합니다. 소스 코드와 데이터셋은 GitHub에서 공개됩니다.