On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning
Created by
Haebom
저자
Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Yang Yuan, Quanquan Gu, Andrew C Yao
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 정책 경사 알고리즘에서 KL 정규화의 효과적인 활용 방안을 제시합니다. 기존 정책 경사 알고리즘의 훈련 안정화를 위한 KL 발산 정규화의 광범위한 사용에도 불구하고, 다양한 KL 발산 공식의 추정 및 온라인 강화 학습(RL)의 대리 손실 함수 통합에 대한 체계적인 탐색은 미흡했습니다. 본 논문에서는 온라인 RL 환경에서 KL 정규화된 정책 경사 방법을 도출하고 분석하기 위한 체계적인 프레임워크인 정규화된 정책 경사(RPG)를 제안합니다. 정규화된 및 정규화되지 않은 정책 분포를 고려하여 전방 및 역방향 KL 발산으로 정규화된 목표에 대한 정책 경사와 해당 대리 손실 함수를 도출합니다. 또한, 다양한 알고리즘 요구를 수용하기 위해 완전히 미분 가능한 손실 함수와 REINFORCE 스타일의 경사 추정기를 제시합니다. 제안된 방법들을 사용하여 LLM 추론을 위한 RL에 대한 광범위한 실험을 수행하여 GRPO, REINFORCE++, DAPO와 같은 강력한 기준 모델과 비교하여 훈련 안정성 및 성능 측면에서 향상되거나 경쟁력 있는 결과를 보여줍니다. 코드는 https://github.com/complex-reasoning/RPG 에서 이용 가능합니다.