본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위한 새로운 데이터 생성 방법인 Template-based Data Generation (TDG)을 제시합니다. TDG는 GPT-4를 활용하여 매개변수화된 메타 템플릿을 자동 생성하고, 이를 통해 대량의 고품질 수학 문제와 해답을 합성합니다. 이를 통해 700만 개 이상의 초등 수학 문제와 코드 기반 및 자연어 해답으로 구성된 TemplateMath Part I: TemplateGSM 데이터셋을 생성하였으며, 이는 LLM의 수학적 추론 능력 향상을 위한 사전 학습, 미세 조정 및 평가에 활용될 수 있습니다. 본 연구는 GPT-4를 이용한 메타 템플릿 생성을 통해 무한에 가까운 데이터 생성과 고품질 데이터 증강을 가능하게 합니다. 생성된 데이터셋은 Hugging Face 및 GitHub에서 공개적으로 이용 가능합니다.