Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

Created by
  • Haebom

저자

Zongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang

개요

본 논문은 규칙 기반 강화 학습(RL)을 사용하여 언어 모델(LM)의 추론 능력을 향상시키는 최근 연구에 대한 불안정성 문제를 해결하기 위해 Clipped Policy Gradient Optimization with Policy Drift (CPGD) 알고리즘을 제안합니다. 기존 RL 방법들(GRPO, REINFORCE++, RLOO 등)은 큰 정책 업데이트와 부적절한 클리핑으로 인해 훈련이 실패하는 문제가 있는데, CPGD는 KL divergence 기반의 정책 변화 제약 조건을 도입하여 정책 업데이트를 동적으로 규제하고, 로그 비율에 대한 클리핑 메커니즘을 활용하여 과도한 정책 업데이트를 방지합니다. 이론적 근거와 실험적 분석을 통해 CPGD가 기존 방법들의 불안정성을 완화하고 성능을 향상시키는 것을 보여줍니다. 코드는 https://github.com/ModalMinds/MM-EUREKA 에서 공개됩니다.

시사점, 한계점

시사점:
기존 규칙 기반 강화 학습 방법들의 훈련 불안정성 문제를 효과적으로 해결하는 새로운 알고리즘 CPGD를 제시합니다.
KL divergence 기반의 정책 변화 제약과 로그 비율 클리핑 메커니즘을 통해 안정적인 정책 학습을 가능하게 합니다.
이론적 분석과 실험 결과를 통해 CPGD의 효과와 우수성을 입증합니다.
오픈소스로 코드를 공개하여 재현성과 활용성을 높입니다.
한계점:
제안된 알고리즘의 성능이 모든 종류의 언어 모델과 규칙 기반 보상에 대해 일반화되는지 추가적인 연구가 필요합니다.
다른 첨단 강화 학습 알고리즘과의 비교 분석이 더욱 심도 있게 수행될 필요가 있습니다.
KL divergence를 사용한 정책 변화 제약의 파라미터 조정에 대한 추가적인 가이드라인이 필요할 수 있습니다.
👍