본 논문은 수학적 추론과 같은 어려운 분야에서 LLM의 고급 추론 능력을 향상시키기 위해 검증 가능한 보상을 기반으로 하는 강화 미세 조정(ReFT)을 활용하는 새로운 프레임워크인 Nested-ReFT를 제안합니다. 표준 ReFT 프레임워크의 높은 계산 비용 문제를 해결하기 위해, Nested-ReFT는 대상 모델의 일부 레이어를 행동 모델로 사용하여 훈련 중 오프-정책 완성을 생성합니다. 동적 레이어 스킵을 통해 추론 비용을 감소시키고, 이론적 분석을 통해 무편향 기울기 추정을 보장하며, 경험적 분석을 통해 계산 효율성을 향상시킵니다. 또한, 오프-정책성을 최소화하기 위한 세 가지 편향 완화 방안을 제시하여 ReFT 성능을 유지합니다.