본 논문은 강화학습(RL) 알고리즘이 각 문제에 대해 여러 개(n>1)의 해결책을 독립적으로 평가하는 기존 방식의 한계를 지적합니다. 기존 방식은 Pass@1 성능을 최적화하여 개별 해결책의 질에 집중하지만, 여러 해결책의 다양성과 집합적 유용성은 고려하지 않습니다. 이로 인해 샘플링 용량이 저하되고 어려운 문제에 대한 탐색 및 성능 향상이 제한됩니다. 이를 해결하기 위해, 본 논문은 Pass@k Policy Optimization (PKPO)를 제안합니다. PKPO는 최종 보상에 변환을 적용하여 Pass@k 성능을 직접 최적화함으로써, 여러 해결책을 공동으로 고려했을 때 보상을 극대화하는 해결책 집합을 최적화합니다. 본 논문은 이진 및 연속 보상 설정 모두에서 Pass@k 및 그 기울기의 새로운 저분산 불편 추정기를 도출합니다. 제안된 추정기를 사용한 최적화는 안정적이고 효율적인 변환 함수로 공동 변환된 보상을 사용하는 표준 RL로 축소됩니다. 기존 연구가 k=n으로 제한된 반면, 본 연구는 임의의 k <= n에 대해 Pass@k를 강력하게 최적화할 수 있도록 합니다. 또한, Pass@1 성능과 Pass@k 성능 간의 트레이드오프 없이, 학습 중 k 값을 조정하여 두 지표 모두를 최적화하고 Pass@1 성능과 Pass@k 성능을 모두 향상시킬 수 있습니다. 장난감 실험과 GEMMA-2를 이용한 실제 사례 연구를 통해 제안된 방법의 효과를 검증합니다.