본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위해, GPT-4를 활용한 새로운 데이터 생성 방법인 Template-based Data Generation (TDG)을 제시합니다. TDG는 매개변수화된 메타 템플릿을 자동으로 생성하여 다양하고 고품질의 수학 문제와 해답을 대량으로 생성합니다. 이를 통해 700만 개 이상의 초등 수학 문제와 해답으로 구성된 TemplateMath Part I: TemplateGSM 데이터셋을 생성하고 공개하였으며, 이는 LLM의 사전 학습, 미세 조정 및 평가에 유용한 자료로 활용될 수 있습니다. 본 연구는 무한에 가까운 데이터 생성과 GPT-4 기반의 고품질 메타 템플릿 생성을 통해 데이터 증강의 새로운 수준을 제시합니다.