Jiashun Liu, Johan Obando-Ceron, Han Lu, Yancheng He, Weixun Wang, Wenbo Su, Bo Zheng, Pablo Samuel Castro, Aaron Courville, Ling Pan
개요
본 논문은 LLM(Large Language Models)을 위한 RL(Reinforcement Learning) 연구에서, critic의 역할을 복원하면서도 효율성을 유지하는 간단하고 확장 가능한 프레임워크인 Asymmetric Proximal Policy Optimization (AsyPPO)를 소개한다. AsyPPO는 경량화된 mini-critic들을 활용하여 학습 안정성과 성능을 향상시키고, GRPO, PPO 등 기존의 강력한 baseline을 능가하는 결과를 보였다.