본 논문은 대규모 언어 모델이 다단계 작업을 해결하도록 하는 사고연쇄 추론에서 결과 기반 보상의 한계점(크레딧 할당 어려움, 느린 수렴)을 극복하기 위해 새로운 프레임워크인 역방향 적응적 보상 형성(Backwards Adaptive Reward Shaping, BARS)을 제시한다. BARS는 희소 결과 기반 보상을 효과적인 절차 기반 신호로 변환하여 인간 감독 없이도 효율적인 단계별 피드백을 제공한다. 종단 상태 사전 확률과 커버 트리(cover trees)를 사용하여 보상을 조정하고 착취를 방지하며, Bellman contraction과 $(\Delta, \epsilon)$-gap 보상을 이용한 후방 오일러 솔버(backward Euler solver)를 통해 $O\left((R_{\max}/\Delta)\log(1/\epsilon)\right)$ 반복 횟수 내에 $\epsilon$-정확도를 달성하고 $T$ 라운드에 걸쳐 $O(\log T)$의 동적 후회(dynamic regret)를 가진다. 일반적 체이닝(generic chaining), 연속 스케일링 한계, 비선형 Feynman-Kac 경계에 기반한 분석을 통해 최근 결과 기반 방법의 실험적 성공을 중간 감독의 이점과 연결시키며, 결과 기반 보상 형성을 위한 최초의 엄밀한 노-리그렛(no-regret) 알고리즘을 제공하여 DeepSeek's R1의 실험적 성공에 대한 이론적 토대를 마련한다.