P^2O: Joint Policy and Prompt Optimization

Created by

Haebom

저자

Xinyu Lu, Kaiqi Zhang, Jinglin Yang, Boxi Cao, Yaojie Lu, Hongyu Lin, Min He, Xianpei Han, Le Sun

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 강화하는 강화학습 패러다임인 RLVR의 탐색 효율성 문제를 해결하고자 합니다. 이를 위해 P^2O라는 새로운 프레임워크를 제안하며, 이는 프롬프트 최적화와 정책 최적화를 결합하여 어려운 샘플에 대한 성공적인 탐색을 유도하고 모델 파라미터에 직접적인 학습 신호를 주입하여 성능을 향상시킵니다. 실험 결과 P^2O는 배포 내외의 데이터셋 모두에서 우수한 성능과 일반화 능력을 보여줍니다.

🔑 시사점 및 한계

•

RLVR에서 발생하는 탐색 비효율성, 특히 어려운 샘플에 대한 문제점을 해결하는 효과적인 방법을 제시합니다.

•

프롬프트 엔지니어링의 이점을 모델 학습에 직접 통합하여, 프롬프트 수정만으로는 달성하기 어려운 모델 파라미터 개선을 이끌어냅니다.

•

제안된 방법론이 다양한 벤치마크에서 뛰어난 성능과 일반화 능력을 보임을 실험적으로 입증했습니다.

•

GEPA 알고리즘을 사용한 프롬프트 진화 과정의 복잡성 및 계산 비용에 대한 추가적인 분석이 필요할 수 있습니다.

PDF 보기

Made with Slashpage