Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Created by
  • Haebom

저자

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

개요

본 논문은 검증 가능한 보상을 사용한 강화 학습(RLVR)이 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시켰지만, 본질적으로 온-폴리시 전략과 LLM의 방대한 행동 공간 및 희소 보상으로 인해 기본 LLM의 고유한 능력 한계를 극복하는 데 어려움을 겪고, RLVR이 능력 경계 붕괴를 야기하여 LLM의 문제 해결 범위를 좁힐 수 있다는 점을 지적합니다. 이를 해결하기 위해, 본 논문은 내부 활용과 외부 데이터를 시너지 효과를 내도록 결합하여 더 강력한 추론 능력을 달성하고 기본 모델의 한계를 뛰어넘는 새로운 하이브리드 정책 최적화 접근 방식인 RL-PLUS를 제안합니다. RL-PLUS는 외부 데이터의 분포 불일치를 해결하기 위한 다중 중요도 샘플링과 고가치의 탐험되지 않은 추론 경로로 모델을 안내하기 위한 탐색 기반 이점 함수라는 두 가지 핵심 구성 요소를 통합합니다. 본 논문은 이론적 분석과 광범위한 실험을 통해 제안된 접근 방식의 우수성과 일반화 가능성을 입증합니다.

시사점, 한계점

시사점:
RL-PLUS는 기존 RLVR 방법보다 6개의 수학 추론 벤치마크에서 최첨단 성능을 달성했습니다.
6개의 분포 외 추론 작업에서 우수한 성능을 보였습니다.
다양한 모델 계열에서 평균 상대적 개선율이 최대 69.2%에 달하는 일관되고 상당한 성능 향상을 보였습니다.
RL-PLUS는 능력 경계 붕괴 문제를 효과적으로 해결합니다.
한계점:
논문에서는 RL-PLUS의 한계점에 대한 명시적인 언급이 없습니다. 추가 연구를 통해 구체적인 한계점을 밝힐 필요가 있습니다. 예를 들어, 다중 중요도 샘플링과 탐색 기반 이점 함수의 효율성에 대한 추가적인 분석이 필요할 수 있습니다. 또한, 특정 유형의 문제 또는 LLM 아키텍처에 대한 일반화 가능성의 제한이 존재할 수 있습니다.
👍