ProPS: Prompted Policy Search for Reinforcement Learning
개요
본 논문은 기존 강화 학습(RL)의 한계를 극복하기 위해, 수치적 보상 신호와 언어적 정보를 결합하는 새로운 RL 방법인 ProPS (Prompted Policy Search)를 제안합니다. ProPS는 대규모 언어 모델(LLM)을 정책 최적화 루프의 중심으로 활용하여 보상 피드백과 자연어 입력을 기반으로 정책 업데이트를 직접 제안합니다. LLM이 문맥 내에서 수치적 최적화를 수행할 수 있으며, 목표, 도메인 지식, 전략 힌트와 같은 의미론적 신호를 통합하여 탐색 효율성과 학습 효과를 향상시킬 수 있음을 보입니다. ProPS는 15개의 Gymnausium task에서 7개의 기존 RL 알고리즘(PPO, SAC, TRPO 등)과 비교 평가되었으며, 8개의 태스크에서 모든 기준선을 능가하고 도메인 지식이 제공될 때 상당한 성능 향상을 보였습니다.