P^2O: Joint Policy and Prompt Optimization

작성자

Haebom

카테고리

Empty

저자

Xinyu Lu, Kaiqi Zhang, Jinglin Yang, Boxi Cao, Yaojie Lu, Hongyu Lin, Min He, Xianpei Han, Le Sun

💡 개요

본 논문은 강화학습을 통해 LLM의 추론 능력을 향상시키려는 RLVR 방법론이 어려운 샘플에서 발생하는 장점 붕괴(advantage collapse) 문제를 해결하기 위해 P$^2$O라는 새로운 접근 방식을 제안합니다. P$^2$O는 정책 업데이트와 프롬프트 진화를 번갈아 수행하며, GEPA 알고리즘을 사용하여 해결하기 어려운 문제에 대한 효과적인 추론 프롬프트를 발견합니다. 컨텍스트 증류를 통해 모델은 프롬프트에서 얻은 이득을 직접 파라미터에 내재화하여 추론 시 별도의 프롬프트 없이도 성능을 향상시킵니다.

🔑 시사점 및 한계

•

P$^2$O는 어려운 샘플에서도 중요한 학습 신호를 복원하여 기존 GRPO 및 더 큰 롤아웃 예산 기반의 모델보다 훨씬 뛰어난 성능을 보여줍니다.

•

제안된 방법론은 희소 보상 환경에서 표준 탐색의 한계를 드러내고, 진화 알고리즘과 강화학습의 결합이 LLM 정렬에 대한 새로운 가능성을 제시합니다.

•

이산적 의미론적 탐색과 연속적 파라미터 업데이트를 통합한 P$^2$O는 LLM 정렬을 위한 자가 강화 패러다임을 구축하며, 9.5%까지 성능 향상을 달성했습니다.

•

(한계점 또는 향후 과제) GEPA 알고리즘의 연산 복잡성 및 프롬프트 탐색 공간의 크기가 P$^2$O의 확장성에 영향을 미칠 수 있으며, 다양한 LLM 아키텍처 및 태스크에 대한 일반화 성능 검증이 필요합니다.

PDF 보기

Made with Slashpage