Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

작성자

Haebom

카테고리

Empty

저자

Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Yingyue Li, Wutong Xu, Lizhou Cai, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 강화학습 기법인 RLVR에서 기존의 그룹 기반 정책 경사법이 암묵적으로 정의하는 목표 분포를 명확히 하고, 이를 명시적으로 투영하는 Listwise Policy Optimization (LPO)을 제안합니다. LPO는 응답 심플렉스 상에서 근사적인 목표 분포 투영을 정확한 발산 최소화로 대체하여 훈련 성능을 향상시키고 안정성과 다양성을 보존합니다.

🔑 시사점 및 한계

•

기존 그룹 기반 RLVR 방법론의 기하학적 구조를 규명하고, 이를 명시적인 목표 분포 투영 프레임워크로 확장했습니다.

•

제안된 LPO는 훈련 성능의 단조적 개선, 안정성 및 응답 다양성 보존이라는 장점을 제공합니다.

•

발산 선택의 유연성은 다양한 구조적 속성을 가진 투영을 가능하게 합니다.

•

향후 연구에서는 LPO의 이론적 근거를 더욱 강화하고, 다양한 LLM 아키텍처 및 복잡한 추론 작업에 대한 적용 범위를 확장할 필요가 있습니다.

PDF 보기

Made with Slashpage