Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Soft Adaptive Policy Optimization

Created by
  • Haebom
Category
Empty

저자

Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin

개요

강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 중요한 역할을 하지만, 안정적이고 성능이 좋은 정책 최적화는 여전히 어려운 과제입니다. 토큰 수준의 중요도 비율은 종종 높은 분산을 보이며, 이는 Mixture-of-Experts 모델에서 더욱 심화되어 불안정한 업데이트를 초래합니다. GSPO 및 GRPO와 같은 기존의 그룹 기반 정책 최적화 방법은 하드 클리핑을 통해 이 문제를 완화하지만, 안정성과 효과적인 학습을 모두 유지하기 어렵습니다. 본 논문에서는 하드 클리핑을 부드럽고 온도 조절된 게이트로 대체하여, 유용한 학습 신호를 보존하면서 오프-정책 업데이트를 적응적으로 감쇠시키는 Soft Adaptive Policy Optimization (SAPO)을 제안합니다. SAPO는 GSPO 및 GRPO에 비해 시퀀스 일관성을 유지하며 토큰에 적응적입니다. GSPO와 마찬가지로 SAPO는 시퀀스 수준의 일관성을 유지하지만, 소프트 게이팅은 GSPO에서 사용되는 취약한 하드 클리핑 밴드를 피하는 연속적인 신뢰 영역을 형성합니다. SAPO는 하드 토큰 수준 클리핑을 부드러운 온도 조절된 스케일링으로 대체하여, 보다 유익하고 안정적인 업데이트를 가능하게 합니다. 수학적 추론 벤치마크에 대한 실험 결과에 따르면 SAPO는 유사한 훈련 예산에서 향상된 훈련 안정성과 더 높은 Pass@1 성능을 보입니다. 또한 SAPO를 사용하여 Qwen3-VL 모델 시리즈를 훈련하여 다양한 작업과 서로 다른 모델 크기에서 일관된 성능 향상을 입증했습니다.

시사점, 한계점

시사점:
RL 기반 LLM 훈련의 안정성과 성능을 향상시키는 새로운 최적화 방법론(SAPO) 제안.
GSPO 및 GRPO의 하드 클리핑 문제를 해결하여 시퀀스 일관성을 유지하면서도 토큰 수준의 적응성을 확보.
수학적 추론 벤치마크에서 기존 방법론 대비 향상된 성능 입증.
Qwen3-VL 모델 시리즈 훈련을 통해 다양한 작업과 모델 크기에서 일관된 성능 향상 확인.
한계점:
구체적인 성능 향상 수치 및 비교 대상 모델에 대한 상세 정보 부족 (예: Pass@1 향상 정도).
일반적인 RL 환경에 대한 SAPO의 일반화 성능 검증 부족.
SAPO의 하이퍼파라미터 설정에 대한 민감도 분석 부족.
👍