VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

작성자

Haebom

카테고리

Empty

저자

Guobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

💡 개요

대규모 언어 모델(LLM)의 강화학습(RL) 훈련 시 불가피하게 발생하는 오프-폴리시(off-policy) 업데이트는 높은 분산으로 인해 학습 불안정성을 야기합니다. 본 논문은 이러한 문제를 해결하기 위해 변분적 접근 방식을 통해 분산을 명시적으로 줄이는 시퀀스 레벨 소프트 정책 최적화 기법인 VESPO를 제안합니다. VESPO는 토큰 레벨의 근사나 길이 정규화를 피하면서 직접적으로 시퀀스 레벨 중요도 가중치를 재형성하는 원리적인 방법을 제시하며, 실제 수학 추론 및 코드 생성 작업에서 심각한 오프-폴리시 상황에서도 안정적인 훈련과 일관된 성능 향상을 입증했습니다.

🔑 시사점 및 한계

•

LLM의 안정적인 오프-폴리시 RL 훈련을 위한 이론적으로 뒷받침되는 새로운 방법론을 제시합니다.

•

기존의 휴리스틱한 기법들과 달리, 분산에 대한 명시적인 제약을 통해 신뢰성 있는 성능 개선을 달성합니다.

•

제안된 커널의 이론적 분산 상한이 실제 훈련에서의 분산 감소 효과를 얼마나 잘 반영하는지에 대한 추가적인 분석이 필요할 수 있습니다.

PDF 보기

Made with Slashpage