본 연구는 대규모 언어 모델(LLM)의 후속 학습 및 정렬에 사용되는 공개 데이터 세트인 Tulu-3-SFT-Mix와 SmolTalk를 비교 분석합니다. Magpie 프레임워크를 사용하여 데이터 세트의 품질을 평가하고, 두 데이터 세트의 구조적, 질적 유사점과 차이점을 밝힙니다. 이러한 통찰력을 바탕으로, 성능을 유지하면서 데이터 세트 크기를 줄이는 새로운 데이터 혼합물인 TuluTalk를 개발합니다. 연구 결과는 효과적인 후속 학습 데이터 세트 구축에 대한 실질적인 지침을 제공하며, 공개된 데이터 세트와 TuluTalk 혼합물은 향후 연구를 지원합니다.