본 논문은 대규모 언어 모델의 추론 시간 검색을 활용하여 복잡한 수학 및 추론 문제 해결 능력을 향상시키는 기존 방법의 높은 계산 비용 및 추론 시간 문제를 해결하기 위해, 다양한 검색 방법에서 얻은 성공 및 실패 추론 경로를 이용하여 모델을 미세 조정하는 새로운 접근 방식을 제안합니다. 기존의 미세 조정이 모델의 검색 능력을 저하시킬 수 있다는 점을 밝히고, 작은 학습률을 사용하여 이를 완화할 수 있음을 보여줍니다. Game-of-24 및 Countdown 추론 벤치마크 실험 결과, 오프라인 미세 조정을 위한 데이터로 CoT(Chain-of-Thought) 생성 데이터 대신 검색 생성 데이터를 사용하면 추론 시간 검색 기준선보다 성공률이 약 23% 향상되고 추론 시간이 180배 단축됨을 보여줍니다. 또한, 제안하는 학습 및 망각 목적 함수는 지도 학습 미세 조정 및 기호 기반 방법을 꾸준히 능가합니다.