Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Created by
  • Haebom

저자

Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu

개요

본 논문은 강화 학습(RL)을 이용하여 대규모 언어 모델의 추론 능력을 효과적으로 향상시키는 방법을 제시한다. 기존의 토큰 단위 방법(예: PPO)은 정밀한 이점 신호를 제공하지만 정확한 비평가 모델을 훈련하는 어려움으로 인해 정확도가 떨어지는 반면, 궤적 단위 방법(예: GRPO)은 최종 보상으로부터 얻은 조잡한 이점 신호에만 의존하여 정확한 공로 할당이 어렵다는 한계를 지닌다. 이를 해결하기 위해 본 논문은 세그먼트 단위 이점 추정을 활용하는 새로운 RL 프레임워크인 세그먼트 정책 최적화(SPO)를 제안한다. SPO는 궤적 단위 방법보다 더 정확한 공로 할당을 제공하고 토큰 단위 방법보다 적은 추정 지점을 필요로 하여 비평가 모델 없이도 몬테카를로(MC) 기반의 정확한 이점 추정을 가능하게 한다. SPO는 유연한 세그먼트 분할, 정확한 세그먼트 이점 추정, 그리고 새로운 확률 마스크 전략을 포함한 세그먼트 이점을 사용한 정책 최적화라는 세 가지 핵심 구성 요소를 특징으로 한다. 본 논문에서는 짧은 사고 과정(CoT)을 위한 SPO-chain과 긴 CoT를 위한 SPO-tree라는 두 가지 구체적인 시나리오에 SPO를 적용하여 GSM8K와 MATH500에서 기존 방법들보다 성능 향상을 보임을 실험적으로 증명한다.

시사점, 한계점

시사점:
세그먼트 단위 이점 추정을 통해 토큰 단위와 궤적 단위 방법의 한계를 극복하고 더욱 정확한 강화 학습 기반의 대규모 언어 모델 학습이 가능함을 보여줌.
짧은 CoT(SPO-chain)와 긴 CoT(SPO-tree) 모두에서 기존 방법들(PPO, GRPO) 대비 성능 향상을 달성하여 다양한 추론 작업에 적용 가능성을 제시함.
비평가 모델 없이 MC 기반의 정확한 이점 추정을 가능하게 하여 계산 비용을 절감함.
공개된 코드를 통해 재현성과 확장성을 확보함.
한계점:
제안된 SPO의 세그먼트 분할 전략 및 이점 추정 방법의 최적화에 대한 추가적인 연구가 필요할 수 있음.
다양한 작업 및 데이터셋에 대한 추가적인 실험을 통해 일반화 성능을 더욱 검증할 필요가 있음.
특정한 유형의 추론 문제에 대해서만 성능 향상이 관찰되었을 가능성이 있으며, 더욱 광범위한 추론 작업에 대한 효과를 확인해야 함.
👍