본 논문은 대형 언어 모델(LLM)의 견고하고 일반적인 추론 능력 구축을 목표로 하며, 코드의 논리적 구조와 다양한 추론 패러다임을 활용하기 위해 코드 실행을 명시적인 단계별 사고 방식의 근거로 변환하는 260만 개의 샘플로 구성된 대규모 코퍼스인 TracePile을 소개합니다. TracePile은 수학, 고전 알고리즘, 알고리즘 경연 분야를 포괄하며, 변수 추적 질문과 코드 재작성을 통해 논리적 세분성과 코드 다양성을 향상시킵니다. LLaMA 3, LLaMA 3.1, Qwen-2.5, Qwen-2.5 Coder를 포함한 4개의 기본 모델과 20개의 벤치마크를 사용하여 continue-pretraining, instruction tuning, two-stage finetuning의 3가지 훈련 설정을 평가한 결과, 일관된 성능 향상을 보였습니다.