Sign In

Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yilong Li, Suman Banerjee, Tong Che

πŸ’‘ κ°œμš”

κΈ°μ‘΄ μ½”λ“œ 생성 방식은 단일 ν™•λ₯  λΆ„ν¬μ—μ„œ $K$개의 독립적인 μƒ˜ν”Œμ„ μƒμ„±ν•˜μ—¬ κ²€μ¦ν•˜λŠ”λ°, 이둜 인해 μœ μ‚¬ν•œ μΆ”λ‘  κ²½λ‘œκ°€ λ°˜λ³΅λ˜μ–΄ μ—°μ‚° μžμ›μ„ λ‚­λΉ„ν•˜λŠ” λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬μ—μ„œλŠ” μ—¬λŸ¬ 독립적인 μ•Œκ³ λ¦¬μ¦˜ μ „λž΅μ„ νƒμƒ‰ν•˜λ„λ‘ ν•˜λŠ” "Coordinated Pass@K Policy Optimization (CPPO)"λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. CPPOλŠ” ν”Œλž˜λ„ˆκ°€ $K$개의 κ³ μˆ˜μ€€ κ³„νšμ„ μƒμ„±ν•˜κ³ , 곡유 솔버가 각 κ³„νšμ— 따라 ν•˜λ‚˜μ˜ 해결책을 μ‹œλ„ν•˜λŠ” λ°©μ‹μœΌλ‘œ μž‘λ™ν•˜λ©°, 성곡적인 μ „λž΅ νŠœν”Œμ—λ§Œ 보상을 λΆ€μ—¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
탐색 곡간 ν™•μž₯을 ν†΅ν•œ νš¨μœ¨μ„± μ¦λŒ€: CPPOλŠ” λ‹€μ–‘ν•œ μ•Œκ³ λ¦¬μ¦˜ μ „λž΅μ„ λ™μ‹œμ— νƒμƒ‰ν•¨μœΌλ‘œμ¨ 단일 뢄포 기반 μƒ˜ν”Œλ§μ˜ λΉ„νš¨μœ¨μ„±μ„ κ·Ήλ³΅ν•˜κ³  pass@K μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
경쟁 ν”„λ‘œκ·Έλž˜λ° 문제 ν•΄κ²° λŠ₯λ ₯ κ°•ν™”: μ—¬λŸ¬ κ°€λŠ₯ν•œ ν•΄κ²° μ „λž΅μ„ κ³ λ €ν•˜λŠ” CPPOλŠ” λ‹€μ–‘ν•œ μ ‘κ·Ό 방식을 μš”κ΅¬ν•˜λŠ” 경쟁 ν”„λ‘œκ·Έλž˜λ° λ¬Έμ œμ—μ„œ 효과적인 μ„±λŠ₯을 보일 κ²ƒμœΌλ‘œ κΈ°λŒ€λ©λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•œ λͺ¨λΈ ꡬ쑰 및 ν›ˆλ ¨: ν”Œλž˜λ„ˆμ™€ 곡유 μ†”λ²„λ‘œ κ΅¬μ„±λœ CPPO의 곡동 ν›ˆλ ¨μ€ κΈ°μ‘΄ 방식보닀 λͺ¨λΈ ꡬ쑰가 λ³΅μž‘ν•˜κ³  ν›ˆλ ¨μ΄ μ–΄λ €μšΈ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘