Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Single-stream Policy Optimization

Created by
  • Haebom

저자

Zhongwen Xu, Zihan Ding

개요

본 논문은 대규모 언어 모델(LLM)의 정책 경사도 최적화를 단일 스트림 관점에서 재검토합니다. GRPO와 같은 기존의 그룹 기반 방법들은 실시간 기준선을 사용하여 분산을 줄이지만, 빈번한 퇴화 그룹으로 인한 학습 신호 소실과 동기화 장벽으로 인한 확장성 저하라는 심각한 결점을 가지고 있습니다. 본 논문에서는 이러한 문제점을 설계 단계에서 제거하는 단일 스트림 정책 최적화(SPO)를 제안합니다. SPO는 그룹별 기준선을 지속적인 KL-적응형 값 추적기로 대체하고 배치 전체에서 이점을 전역적으로 정규화하여 모든 샘플에 대해 안정적이고 분산이 낮은 학습 신호를 제공합니다. 그룹이 없으므로 SPO는 더 높은 처리량을 가능하게 하고 생성 시간이 다양한 장기간 또는 도구 통합 설정에서 효과적으로 확장됩니다. 또한, 지속적인 값 추적기는 우선 순위 샘플링을 통한 적응형 커리큘럼을 자연스럽게 가능하게 합니다. Qwen3-8B를 사용한 실험 결과, SPO는 GRPO보다 더 부드럽게 수렴하고 더 높은 정확도를 달성하는 동시에 퇴화 그룹에 낭비되는 계산을 제거합니다. 추가 연구를 통해 SPO의 성능 향상이 기준선 추정 및 이점 정규화에 대한 원칙적인 접근 방식에서 비롯됨을 확인했으며, 이는 LLM 추론을 위한 더욱 강력하고 효율적인 경로를 제공합니다. 5가지 어려운 수학 벤치마크에서 Qwen3 8B를 사용하여 SPO는 GRPO보다 평균 maj@32를 +3.4% 향상시켰으며, BRUMO 25(+7.3%p), AIME 25(+4.4%p), HMMT 25(+3.3%p) 등 어려운 데이터 세트에서 상당한 절대 점수 향상을 보였고, 평가된 모든 k 값에 대해 pass@$k$에서 일관된 상대적 이득을 달성했습니다. SPO의 성공은 RL 알고리즘에 우연적인 복잡성을 추가하는 기존 추세에 도전하며, 건축상의 해결책이 아니라 기본 원칙이 LLM 추론의 다음 발전을 주도하는 경로를 강조합니다.

시사점, 한계점

시사점:
단일 스트림 기반의 정책 경사도 최적화(SPO)는 기존 그룹 기반 방법(GRPO)의 단점인 퇴화 그룹 문제와 동기화 장벽을 해결하여 더 높은 처리량과 확장성을 제공합니다.
KL-적응형 값 추적기와 전역적 이점 정규화를 통해 안정적이고 분산이 낮은 학습 신호를 제공하여 더 부드러운 수렴과 높은 정확도를 달성합니다.
지속적인 값 추적기를 통해 적응형 커리큘럼을 자연스럽게 구현할 수 있습니다.
다양한 수학 벤치마크에서 기존 방법보다 우수한 성능을 보였습니다.
RL 알고리즘의 복잡성을 줄이고 기본 원칙에 집중하는 새로운 접근 방식을 제시합니다.
한계점:
현재는 Qwen3-8B 모델에 대한 실험 결과만 제시되었으며, 다른 모델이나 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.
KL-적응형 값 추적기의 매개변수 설정이나 최적화에 대한 자세한 설명이 부족합니다.
단일 스트림 접근 방식의 장점이 모든 종류의 LLM과 작업에 적용될 수 있는지는 추가 검증이 필요합니다.
👍