기존 코드 생성 방식은 단일 확률 분포에서 $K$개의 독립적인 샘플을 생성하여 검증하는데, 이로 인해 유사한 추론 경로가 반복되어 연산 자원을 낭비하는 문제가 있습니다. 본 연구에서는 여러 독립적인 알고리즘 전략을 탐색하도록 하는 "Coordinated Pass@K Policy Optimization (CPPO)"를 제안합니다. CPPO는 플래너가 $K$개의 고수준 계획을 생성하고, 공유 솔버가 각 계획에 따라 하나의 해결책을 시도하는 방식으로 작동하며, 성공적인 전략 튜플에만 보상을 부여합니다.