본 논문은 기존 강화학습 기반 인간 피드백(RLHF) 프레임워크에서 Proximal Policy Optimization (PPO)의 한계를 극복하기 위해, RLHF 문제를 마르코프 의사결정 과정(MDP)으로 모델링하는 새로운 프레임워크와 강화 토큰 최적화(Reinforced Token Optimization, RTO) 알고리즘을 제시합니다. RTO는 선호도 데이터로부터 토큰 단위 보상 함수를 학습하고, 이를 기반으로 정책 최적화를 수행합니다. Direct Preference Optimization (DPO)와 PPO를 통합하여 토큰 단위 응답 품질을 특징짓고, 샘플 효율적으로 거의 최적의 정책을 찾을 수 있음을 이론적으로 증명합니다. 실험 결과, RTO는 PPO 및 다른 직접 선호도 학습 알고리즘보다 우수한 성능을 보이며, AlpacaEval 2 벤치마크에서 PPO보다 7.5점, Arena-Hard에서 4.1점 높은 성능을 기록했습니다.