Sign In

P^2O: Joint Policy and Prompt Optimization

Created by
  • Haebom
Category
Empty

저자

Xinyu Lu, Kaiqi Zhang, Jinglin Yang, Boxi Cao, Yaojie Lu, Hongyu Lin, Min He, Xianpei Han, Le Sun

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 강화하는 강화학습 패러다임인 RLVR의 탐색 효율성 문제를 해결하고자 합니다. 이를 위해 P^2O라는 새로운 프레임워크를 제안하며, 이는 프롬프트 최적화와 정책 최적화를 결합하여 어려운 샘플에 대한 성공적인 탐색을 유도하고 모델 파라미터에 직접적인 학습 신호를 주입하여 성능을 향상시킵니다. 실험 결과 P^2O는 배포 내외의 데이터셋 모두에서 우수한 성능과 일반화 능력을 보여줍니다.

🔑 시사점 및 한계

RLVR에서 발생하는 탐색 비효율성, 특히 어려운 샘플에 대한 문제점을 해결하는 효과적인 방법을 제시합니다.
프롬프트 엔지니어링의 이점을 모델 학습에 직접 통합하여, 프롬프트 수정만으로는 달성하기 어려운 모델 파라미터 개선을 이끌어냅니다.
제안된 방법론이 다양한 벤치마크에서 뛰어난 성능과 일반화 능력을 보임을 실험적으로 입증했습니다.
GEPA 알고리즘을 사용한 프롬프트 진화 과정의 복잡성 및 계산 비용에 대한 추가적인 분석이 필요할 수 있습니다.
👍