haebom
Sign In
Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR
Created by
Haebom
Category
Empty
μ μ
Dohyung Kim, Minbeom Kim, Jeonghye Kim, Sangmook Lee, Sojeong Rhee, Kyomin Jung
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅μ νμ©ν LLMμ μΆλ‘ μ±λ₯ ν₯μμ΄ μΆλ ₯ λ€μμ±μ μ ν΄νλ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, κΈ°μ‘΄ GFlowNetsμμ λ¨μν μ κ·ν νμΌλ‘λ§ μ¬κ²¨μ§λ νν°μ ν¨μλ₯Ό κ° ν둬ννΈλ³ μμ 보μ(μ¨λΌμΈ μ νλ) μ νΈλ‘ μ¬ν΄μν©λλ€. μ΄λ₯Ό ν΅ν΄ νμ΅ ν¨μ¨μ±μ λμ΄λ PACED-RL νλ μμν¬λ₯Ό μ μνλ©°, μ€ν κ²°κ³Ό GRPO λ° κΈ°μ‘΄ GFlowNets κΈ°λ° λ°©λ²λ‘ λλΉ μ°μν μ±λ₯μ 보μ λλ€.
π μμ¬μ λ° νκ³
β’
νν°μ ν¨μλ₯Ό λ¨μν μ κ·ν νμ΄ μλ, κ° ν둬ννΈλ³ μ νλ μμΈ‘ μ νΈλ‘ νμ©νμ¬ κ°ννμ΅ νμ΅ ν¨μ¨μ±μ νκΈ°μ μΌλ‘ κ°μ ν μ μμ΅λλ€.
β’
μ μνλ PACED-RLμ μ νλ μμΈ‘μ ν΅ν΄ νμ΅μ μ μ©ν ν둬ννΈμ μ°μ μμλ₯Ό λΆμ¬νκ³ , μ€μ°¨λ₯Ό μ°μ μ μΌλ‘ μ¬νμ΅νμ¬ μν ν¨μ¨μ±μ μ¦λμν΅λλ€.
β’
GFlowNets νμ΅ κ³Όμ μμ μμ±λλ μ 보λ₯Ό μ¬νμ©νμ¬ μΆκ°μ μΈ κ³μ° μ€λ²ν€λλ₯Ό μ΅μνν©λλ€.
PDF 보기
Made with Slashpage