본 논문은 복잡한 문제 해결에 어려움을 겪는 대규모 언어 모델의 한계를 극복하기 위해, 모델 자체의 추론 능력을 향상시키는 새로운 데이터 생성 방법인 SRA-MCTS를 제안합니다. SRA-MCTS는 모델이 자율적으로 고품질의 중간 추론 경로를 생성하도록 유도하여, 긍정적 피드백 루프를 통해 지속적인 성능 향상을 이끌어냅니다. 추론 경로를 자연어로 생성하고 실행 가능한 코드로 변환함으로써 분석 정확도를 보장하고 복잡한 문제 해결 성공률을 높입니다. 실험 결과, 추가적인 감독 신호 없이도 다양한 모델 규모에서 성능 향상을 보였으며, 기존 Chain-of-Thought(CoT) 방법이 성능 저하를 보이는 경우에도 견고한 성능을 유지하고 pass@10과 같은 다양성 지표에서도 눈에 띄는 향상을 보였습니다. 본 연구는 훈련 데이터 내 추론 과정에 대한 추가적인 탐구를 통해 복잡한 문제 해결 능력을 향상시킬 수 있음을 시사합니다. 소스 코드와 데이터는 공개적으로 제공됩니다.