본 논문은 다단계 추론 작업, 특히 웹 작업과 같은 대화형 도메인에서 지상 진실 작업 완료 보상이나 인간 데모 수집이 비용이 많이 들고 시간이 오래 걸리는 문제를 해결하기 위해 자기 지도 학습 방식인 "자기 학습 선행(self-taught lookahead)"을 제시합니다. 이 방법은 상태 전이 역학을 활용하여 언어 모델 제어 검색을 효과적으로 안내할 수 있는 가치 모델을 훈련합니다. 실험 결과, 자기 학습 선행으로 개선된 중간 크기(80억 매개변수)의 개방 가중치 가치 모델이 gpt-4o와 같은 최첨단 LLM을 가치 모델로 사용하는 것과 동등한 성능을 달성하는 것을 확인했습니다. 또한, 지상 진실 보상에 의존하지 않으면서 이전의 LLM 기반 트리 검색과 비교하여 비용은 37배 줄이면서 성능을 20% 향상시키는 것을 확인했습니다.