Sign In

Soft Policy Optimization: Online Off-Policy RL for Sequence Models

Created by
  • Haebom
Category
Empty

저자

Taco Cohen, David W. Zhang, Kunhao Zheng, Yunhao Tang, Remi Munos, Gabriel Synnaeve

개요

본 논문은 언어 모델의 강화 학습 기반 사후 훈련에 주로 사용되는 온-폴리시 방법인 PPO의 한계점을 지적하고, 이를 극복하기 위한 새로운 방법인 Soft Policy Optimization (SPO)를 제안합니다. SPO는 임의의 온라인 및 오프라인 궤적 데이터로부터 학습할 수 있으며, 별도의 가치 모델이 필요 없다는 장점을 가지고 있습니다. 코드 경진대회 실험 결과, SPO는 PPO보다 pass@10 성능이 우수하고, 속도와 메모리 효율이 훨씬 높으며, 오프-폴리시 데이터를 활용하고, 안정성이 향상되며, 더 다양한(소프트) 정책을 학습하는 것으로 나타났습니다.

시사점, 한계점

시사점:
PPO의 단점인 샘플 비효율성, 탐색 어려움, 정책 응답의 다양성 저하, 높은 계산 비용 및 메모리 소모 문제를 해결할 수 있는 새로운 방법 제시.
오프-폴리시 데이터를 활용하여 학습 효율을 높일 수 있음.
더욱 안정적이고 다양한 정책을 학습 가능.
높은 메모리 효율과 속도 향상.
한계점:
현재는 코드 경진대회라는 특정 도메인에서만 성능이 검증됨. 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요.
SPO의 장점이 모든 종류의 언어 모델과 작업에 적용될 수 있는지에 대한 추가적인 연구가 필요함.
👍