ACPO는 LLM의 복잡한 추론 능력을 향상시키기 위해, 탐험과 활용의 균형을 맞추는 데 중점을 둔 프레임워크이다. Trajectory semantic segmentation과 attribution-based representation을 사용하여 정책 엔트로피를 동적으로 조절하고, difficulty-aware curriculum을 도입하여 탐험을 개선한다. 또한, 계층적 기여도를 정확하게 정량화하는 factorized reward system을 통해 활용을 향상시킨다. AIME, MATH, AMC 벤치마크에서 기존 SOTA를 능가하는 성능을 보였다.