Sign In

Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR

Created by
  • Haebom
Category
Empty

μ €μž

Dohyung Kim, Minbeom Kim, Jeonghye Kim, Sangmook Lee, Sojeong Rhee, Kyomin Jung

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ„ ν™œμš©ν•œ LLM의 μΆ”λ‘  μ„±λŠ₯ ν–₯상이 좜λ ₯ 닀양성을 μ €ν•΄ν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, κΈ°μ‘΄ GFlowNetsμ—μ„œ λ‹¨μˆœνžˆ μ •κ·œν™” ν•­μœΌλ‘œλ§Œ μ—¬κ²¨μ§€λ˜ νŒŒν‹°μ…˜ ν•¨μˆ˜λ₯Ό 각 ν”„λ‘¬ν”„νŠΈλ³„ μ˜ˆμƒ 보상(온라인 정확도) μ‹ ν˜Έλ‘œ μž¬ν•΄μ„ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν•™μŠ΅ νš¨μœ¨μ„±μ„ λ†’μ΄λŠ” PACED-RL ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, μ‹€ν—˜ κ²°κ³Ό GRPO 및 κΈ°μ‘΄ GFlowNets 기반 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
νŒŒν‹°μ…˜ ν•¨μˆ˜λ₯Ό λ‹¨μˆœνžˆ μ •κ·œν™” 항이 μ•„λ‹Œ, 각 ν”„λ‘¬ν”„νŠΈλ³„ 정확도 예츑 μ‹ ν˜Έλ‘œ ν™œμš©ν•˜μ—¬ κ°•ν™”ν•™μŠ΅ ν•™μŠ΅ νš¨μœ¨μ„±μ„ 획기적으둜 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆν•˜λŠ” PACED-RL은 정확도 μ˜ˆμΈ‘μ„ 톡해 ν•™μŠ΅μ— μœ μš©ν•œ ν”„λ‘¬ν”„νŠΈμ— μš°μ„ μˆœμœ„λ₯Ό λΆ€μ—¬ν•˜κ³ , 였차λ₯Ό μš°μ„ μ μœΌλ‘œ μž¬ν•™μŠ΅ν•˜μ—¬ μƒ˜ν”Œ νš¨μœ¨μ„±μ„ μ¦λŒ€μ‹œν‚΅λ‹ˆλ‹€.
β€’
GFlowNets ν•™μŠ΅ κ³Όμ •μ—μ„œ μƒμ„±λ˜λŠ” 정보λ₯Ό μž¬ν™œμš©ν•˜μ—¬ 좔가적인 계산 μ˜€λ²„ν—€λ“œλ₯Ό μ΅œμ†Œν™”ν•©λ‹ˆλ‹€.
πŸ‘