본 논문은 파운데이션 모델의 광범위한 지식과 제한된 작업별 추론 능력을 해결하기 위한 사후 훈련 전략을 연구한다. 특히, 강화 학습 기반의 가치 학습(RLVR)과 결과 또는 과정 보상 모델(ORM/PRM)을 사용한 추론 확장의 문제점을 분석하고, 이러한 방법론들이 기존의 추론 경로를 강화할 뿐, 새로운 패턴을 확장하지 못하는 역설을 제시한다. 이를 해결하기 위해, 논문은 Multi-task Tree-structured Markov Chains(TMC) 모델을 사용하여 사전 훈련이 트리 확장에 해당하고, 사후 훈련이 chain-of-thought 재가중치에 해당함을 보인다. 또한, RLVR의 '짜내기 효과', ORM/PRM의 일관성 선호 경향, 희귀한 고불확실성 추론 경로의 중요성을 밝힌다. 마지막으로, 쉬운 인스턴스를 거부하고 KL 정규화를 사용하는 탐색 전략이 희귀한 추론 경로를 보존하는 데 도움이 된다는 점을 시뮬레이션을 통해 검증한다.