Learning to Reason as Action Abstractions with Scalable Mid-Training RL
Created by
Haebom
저자
Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang
개요
대규모 언어 모델은 강화 학습(RL)에 강점을 보이지만, 잠재력을 최대한 발휘하려면 중간 훈련 단계가 필요합니다. 이 논문은 중간 훈련이 이후 훈련에 미치는 영향을 이론적으로 분석하고, 효율적인 액션 선택을 위한 액션 추상화 공간의 중요성을 강조합니다. 이를 바탕으로 시퀀셜 변동 하한을 활용하여 시간적으로 일관된 잠재 구조를 발견하고 부트스트랩된 데이터를 기반으로 미세 조정하는 RA3 (Reasoning as Action Abstractions) 알고리즘을 제안합니다. RA3는 코드 생성 작업에서 실험을 통해 성능 향상을 입증했습니다.
시사점, 한계점
•
시사점:
◦
중간 훈련 단계가 RL 기반 대규모 언어 모델의 성능 향상에 중요함을 이론적으로 규명.
◦
액션 추상화 공간에서의 훈련이 효과적임을 제시.
◦
RA3 알고리즘을 통해 코드 생성 작업에서 기존 방법 대비 성능 향상을 달성.
•
한계점:
◦
이론적 분석 및 RA3 알고리즘의 효과는 코드 생성 작업에 한정되어 다른 분야로의 일반화 필요.