Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
Created by
Haebom
Category
Empty
저자
Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
개요
본 논문은 대규모 언어 모델(LLM)이 다단계 추론을 필요로 하는 문제에서 어려움을 겪는 문제를 해결하기 위해, Supervised Reinforcement Learning (SRL)이라는 새로운 프레임워크를 제안합니다. SRL은 문제 해결을 일련의 논리적인 "행동" 생성으로 재구성하고, 각 행동을 수행하기 전에 내부 추론 독백을 생성하도록 모델을 훈련시킵니다. 이는 SFT 데이터셋에서 추출한 전문가 행동과의 유사성을 기반으로 단계별로 부드러운 보상을 제공하여, 모든 롤아웃이 잘못된 경우에도 풍부한 학습 신호를 제공하고 전문가 시연에 의해 안내되는 유연한 추론을 장려합니다. SRL은 SFT 또는 RLVR로는 학습할 수 없었던 어려운 문제를 소규모 모델에서도 학습할 수 있게 하며, SRL로 초기화한 후 RLVR로 개선하는 것이 가장 강력한 성능을 보였습니다. 또한, 추론 벤치마크 외에도 에이전트 기반 소프트웨어 엔지니어링 작업에도 효과적으로 일반화되어 추론 지향 LLM을 위한 강력하고 다재다능한 훈련 프레임워크로 자리매김합니다.
시사점, 한계점
•
시사점:
◦
SRL은 다단계 추론 문제에서 소규모 LLM의 성능을 향상시키는 데 효과적입니다.
◦
SFT 및 RLVR의 한계를 극복하는 새로운 훈련 프레임워크를 제시합니다.
◦
전문가 행동과의 유사성을 기반으로 한 부드러운 보상 방식을 통해 학습 효율성을 높입니다.
◦
추론 벤치마크뿐만 아니라 에이전트 기반 작업에도 일반화 가능합니다.
◦
SRL을 초기화 단계로 사용하여 RLVR의 성능을 향상시킬 수 있습니다.
•
한계점:
◦
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만 논문 요약에서 언급된 내용만으로 판단해 볼 때)