본 논문은 대규모 언어 모델(LLM)의 추론 향상을 위한 강화 학습(RL)에서 가치 기반 접근 방식을 재조명합니다. 기존의 Bellman 잔차 최소화 패러다임을 바탕으로, LLM에 적합한 새로운 알고리즘인 Trajectory Bellman Residual Minimization (TBRM)을 제시합니다. TBRM은 모델의 로짓을 Q-값으로 활용하여 단일 궤적 수준의 Bellman 목적 함수를 최적화하는 간단하면서도 효과적인 오프폴리시 알고리즘입니다. 임계값, 중요도 샘플링 비율, 클리핑이 필요 없으며, 프롬프트당 하나의 롤아웃만으로 작동합니다. 개선된 궤적 측정 변경 분석을 통해 임의의 오프폴리시 데이터로부터 거의 최적의 KL-정규화된 정책으로의 수렴을 증명합니다. 표준 수학적 추론 벤치마크 실험에서 PPO 및 GRPO와 같은 정책 기반 기준 알고리즘보다 일관되게 우수한 성능을 보이며, 계산 및 메모리 오버헤드는 비슷하거나 더 낮습니다. 결과적으로 가치 기반 RL이 LLM의 추론 능력 향상을 위한 원칙적이고 효율적인 대안이 될 수 있음을 시사합니다.