SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning
Created by
Haebom
저자
Yihao Liu, Shuocheng Li, Lang Cao, Yuhang Xie, Mengyu Zhou, Haoyu Dong, Xiaojun Ma, Shi Han, Dongmei Zhang
개요
본 논문은 전문가가 주석을 단 해결책이나 추론 과정과 같은 고품질 오프라인 데이터가 풍부한 복잡한 추론 작업에 점점 더 많이 사용되는 대규모 언어 모델에 대해 다룹니다. 하지만 보상이 부족한 환경에서는 강화 학습이 성공적인 경로를 샘플링하는 데 어려움을 겪어 학습 효율이 떨어집니다. 이러한 문제를 해결하기 위해 본 논문에서는 오프라인 감독을 강화 학습에 적응적으로 통합하는 통합 학습 프레임워크인 SuperRL을 제안합니다. SuperRL은 희소 보상 조건을 감지하고 필요에 따라 하이브리드 Actor를 활성화하는 적응형 스위치를 도입합니다. 하이브리드 Actor는 손실 수준에서 정책 경사와 감독 학습 목표를 통합하여 모델이 정확한 오프라인 추론 신호를 활용하면서 강화 학습의 탐색 능력을 유지할 수 있도록 합니다. 다양한 추론 벤치마크에 대한 실험 결과, SuperRL은 희소 보상 하에서 표본 효율성, 일반화 및 강건성을 향상시킴으로써 표준 강화 학습을 꾸준히 능가하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
희소 보상 환경에서 강화 학습의 효율성을 향상시키는 새로운 방법 제시
◦
오프라인 데이터를 활용하여 강화 학습의 성능 및 안정성 개선
◦
SuperRL이 다양한 추론 벤치마크에서 기존 강화 학습 방법보다 우수한 성능을 보임을 실험적으로 증명