본 논문은 언어 모델의 강화 학습 기반 사후 훈련에 주로 사용되는 온-폴리시 방법인 PPO의 한계점을 지적하고, 이를 극복하기 위한 새로운 방법인 Soft Policy Optimization (SPO)를 제안합니다. SPO는 임의의 온라인 및 오프라인 궤적 데이터로부터 학습할 수 있으며, 별도의 가치 모델이 필요 없다는 장점을 가지고 있습니다. 코드 경진대회 실험 결과, SPO는 PPO보다 pass@10 성능이 우수하고, 속도와 메모리 효율이 훨씬 높으며, 오프-폴리시 데이터를 활용하고, 안정성이 향상되며, 더 다양한(소프트) 정책을 학습하는 것으로 나타났습니다.