Sign In

Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Dohyung Kim, Minbeom Kim, Jeonghye Kim, Sangmook Lee, Sojeong Rhee, Kyomin Jung

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅(RL)을 μ΄μš©ν•œ LLM의 μΆ”λ‘  μ„±λŠ₯ ν–₯상 μ‹œ λ°œμƒν•˜λŠ” 생성 λ‹€μ–‘μ„± κ°μ†Œ 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. κΈ°μ‘΄ GFlowNet 기반 연ꡬ와 달리, νŒŒν‹°μ…˜ ν•¨μˆ˜λ₯Ό λ‹¨μˆœ μ •κ·œν™” ν•­μœΌλ‘œ κ°„μ£Όν•˜λŠ” λŒ€μ‹  ν”„λ‘¬ν”„νŠΈλ³„ κΈ°λŒ€ 보상(온라인 정확도)으둜 μž¬ν•΄μ„ν•˜μ—¬ μƒ˜ν”Œ νš¨μœ¨μ„±μ„ λ†’μ΄λŠ” PACED-RL ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
νŒŒν‹°μ…˜ ν•¨μˆ˜λ₯Ό λ‹¨μˆœ μ •κ·œν™”κ°€ μ•„λ‹Œ, ν”„λ‘¬ν”„νŠΈλ³„ 정확도 μΆ”μ • μ‹ ν˜Έλ‘œ ν™œμš©ν•˜μ—¬ LLM ν•™μŠ΅μ˜ μƒ˜ν”Œ νš¨μœ¨μ„±μ„ 획기적으둜 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
PACED-RL은 정확도 μΆ”μ •μΉ˜λ₯Ό ν™œμš©ν•˜μ—¬ ν•™μŠ΅ 데이터 선택 및 였λ₯˜ μš°μ„  μž¬μƒ λ“± 두 κ°€μ§€ λ°©μ‹μœΌλ‘œ ν•™μŠ΅ νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν•˜λ©°, κΈ°μ‘΄ GFlowNet ν•™μŠ΅ κ³Όμ •μ˜ 계산 μ˜€λ²„ν—€λ“œλ₯Ό μž¬ν™œμš©ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ PACED-RL은 GRPO 및 κΈ°μ‘΄ GFlowNet 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, LLM의 뢄포 일치 ν•™μŠ΅μ— μœ λ§ν•œ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
πŸ‘