Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning

작성자

Haebom

카테고리

Empty

저자

Yilong Li, Suman Banerjee, Tong Che

💡 개요

기존 코드 생성 방식은 단일 확률 분포에서 $K$개의 독립적인 샘플을 생성하여 검증하는데, 이로 인해 유사한 추론 경로가 반복되어 연산 자원을 낭비하는 문제가 있습니다. 본 연구에서는 여러 독립적인 알고리즘 전략을 탐색하도록 하는 "Coordinated Pass@K Policy Optimization (CPPO)"를 제안합니다. CPPO는 플래너가 $K$개의 고수준 계획을 생성하고, 공유 솔버가 각 계획에 따라 하나의 해결책을 시도하는 방식으로 작동하며, 성공적인 전략 튜플에만 보상을 부여합니다.

🔑 시사점 및 한계

•

탐색 공간 확장을 통한 효율성 증대: CPPO는 다양한 알고리즘 전략을 동시에 탐색함으로써 단일 분포 기반 샘플링의 비효율성을 극복하고 pass@K 성능을 향상시킵니다.

•

경쟁 프로그래밍 문제 해결 능력 강화: 여러 가능한 해결 전략을 고려하는 CPPO는 다양한 접근 방식을 요구하는 경쟁 프로그래밍 문제에서 효과적인 성능을 보일 것으로 기대됩니다.

•

복잡한 모델 구조 및 훈련: 플래너와 공유 솔버로 구성된 CPPO의 공동 훈련은 기존 방식보다 모델 구조가 복잡하고 훈련이 어려울 수 있습니다.

PDF 보기

Made with Slashpage