본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력 향상을 위한 강화 학습(RL) 방법으로, 계산 비용과 메모리 소모를 줄이는 새로운 정책 최적화 프레임워크인 A*-PO를 제안합니다. A*-PO는 기존 방법들과 달리 최적 이점 함수를 직접적으로 근사하여, 프롬프트당 단일 생성만으로 효율적인 학습을 가능하게 합니다. 먼저 오프라인 샘플링을 통해 최적 값 함수 V*를 추정하고, 이후 단순한 최소 제곱 회귀 손실 함수를 사용하여 온-폴리시 업데이트를 수행합니다. 이론적으로 KL-정규화된 RL 목적 함수를 복잡한 탐색 전략 없이 최적화할 수 있음을 증명하며, 실험적으로 다양한 수학적 추론 벤치마크에서 기존 방법들(PPO, GRPO, REBEL)과 비교하여 경쟁력 있는 성능을 달성하면서 훈련 시간을 최대 2배, 최대 메모리 사용량을 30% 이상 절감하는 결과를 보여줍니다.