κΈ°μ‘΄ μ½λ μμ± λ°©μμ λ¨μΌ νλ₯ λΆν¬μμ $K$κ°μ λ
립μ μΈ μνμ μμ±νμ¬ κ²μ¦νλλ°, μ΄λ‘ μΈν΄ μ μ¬ν μΆλ‘ κ²½λ‘κ° λ°λ³΅λμ΄ μ°μ° μμμ λλΉνλ λ¬Έμ κ° μμ΅λλ€. λ³Έ μ°κ΅¬μμλ μ¬λ¬ λ
립μ μΈ μκ³ λ¦¬μ¦ μ λ΅μ νμνλλ‘ νλ "Coordinated Pass@K Policy Optimization (CPPO)"λ₯Ό μ μν©λλ€. CPPOλ νλλκ° $K$κ°μ κ³ μμ€ κ³νμ μμ±νκ³ , 곡μ μλ²κ° κ° κ³νμ λ°λΌ νλμ ν΄κ²°μ±
μ μλνλ λ°©μμΌλ‘ μλνλ©°, μ±κ³΅μ μΈ μ λ΅ ννμλ§ λ³΄μμ λΆμ¬ν©λλ€.