Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning

Created by

Haebom

저자

Zhuoming Chen, Hongyi Liu, Yang Zhou, Haizhong Zheng, Beidi Chen

💡 개요

대규모 언어 모델(LLM)의 강화학습(RL)은 비싼 롤아웃 비용으로 인해 실용성이 제한됩니다. 본 논문은 롤아웃 모델과 정책 간의 분포 불일치 문제를 해결하기 위해 최적 예산 기각 샘플링(OBRS)을 활용하는 Jackpot 프레임워크를 제안합니다. Jackpot은 OBRS 절차, 정책 및 롤아웃 모델을 통합하여 학습하는 훈련 목표, 그리고 효율적인 시스템 구현을 통해 학습 안정성을 크게 향상시키고 온폴리시 RL에 필적하는 성능을 달성합니다.

🔑 시사점 및 한계

•

롤아웃 생성과 정책 최적화를 분리하여 LLM RL의 효율성을 대폭 향상시킬 수 있는 길을 열었습니다.

•

최적 예산 기각 샘플링(OBRS)은 분포 불일치 문제를 효과적으로 완화하여 학습 안정성을 크게 높입니다.

•

제안된 Jackpot 프레임워크는 LLM RL의 실용성과 효과성을 한 단계 발전시켰습니다.

•

현재의 OBRS 기반 접근 방식이 극복해야 할 한계점 또는 향후 연구 과제는, 더 광범위한 LLM 모델 크기와 복잡한 환경에서의 성능 검증 및 OBRS의 계산 효율성을 더욱 최적화하는 것입니다.

PDF 보기

Made with Slashpage