본 논문은 검증 가능한 보상을 사용한 강화 학습(RLVR)이 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시켰지만, 본질적으로 온-폴리시 전략과 LLM의 방대한 행동 공간 및 희소 보상으로 인해 기본 LLM의 고유한 능력 한계를 극복하는 데 어려움을 겪고, RLVR이 능력 경계 붕괴를 야기하여 LLM의 문제 해결 범위를 좁힐 수 있다는 점을 지적합니다. 이를 해결하기 위해, 본 논문은 내부 활용과 외부 데이터를 시너지 효과를 내도록 결합하여 더 강력한 추론 능력을 달성하고 기본 모델의 한계를 뛰어넘는 새로운 하이브리드 정책 최적화 접근 방식인 RL-PLUS를 제안합니다. RL-PLUS는 외부 데이터의 분포 불일치를 해결하기 위한 다중 중요도 샘플링과 고가치의 탐험되지 않은 추론 경로로 모델을 안내하기 위한 탐색 기반 이점 함수라는 두 가지 핵심 구성 요소를 통합합니다. 본 논문은 이론적 분석과 광범위한 실험을 통해 제안된 접근 방식의 우수성과 일반화 가능성을 입증합니다.
시사점, 한계점
•
시사점:
◦
RL-PLUS는 기존 RLVR 방법보다 6개의 수학 추론 벤치마크에서 최첨단 성능을 달성했습니다.
◦
6개의 분포 외 추론 작업에서 우수한 성능을 보였습니다.
◦
다양한 모델 계열에서 평균 상대적 개선율이 최대 69.2%에 달하는 일관되고 상당한 성능 향상을 보였습니다.
◦
RL-PLUS는 능력 경계 붕괴 문제를 효과적으로 해결합니다.
•
한계점:
◦
논문에서는 RL-PLUS의 한계점에 대한 명시적인 언급이 없습니다. 추가 연구를 통해 구체적인 한계점을 밝힐 필요가 있습니다. 예를 들어, 다중 중요도 샘플링과 탐색 기반 이점 함수의 효율성에 대한 추가적인 분석이 필요할 수 있습니다. 또한, 특정 유형의 문제 또는 LLM 아키텍처에 대한 일반화 가능성의 제한이 존재할 수 있습니다.