haebom
Sign In
Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards
Created by
Haebom
Category
Empty
μ μ
Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κ°ννμ΅μμ μ λ’°λ μ ν λ¬Έμ , νΉν LLMμ μΆλ‘ λ₯λ ₯ ν₯μμλ λΆκ΅¬νκ³ λ°μνλ κ³Όλν νμ μΌλ‘ μΈν μ€λ₯λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. κΈ°μ‘΄ λ°©λ²λ€μ΄ μΆλ‘ μ νλμ μ λ’°λ κ°μ μ λμμ μ΅μ ννλ € νμΌλ, μ΄λ‘ μ λΆμ κ²°κ³Ό λ λͺ©ν μ¬μ΄μ κ·Όλ³Έμ μΈ μΆ©λμ΄ μ‘΄μ¬ν¨μ λ°κ²¬νμ΅λλ€. μ΄μ μΆλ‘ κ³Ό μ λ’°λ λͺ©νλ₯Ό λΆλ¦¬νλ DCPO νλ μμν¬λ₯Ό μ μνμ¬, μ νλλ₯Ό μ μ§νλ©΄μλ λ°μ΄λ μ λ’°λ μ±λ₯μ λ¬μ±νκ³ κ³Όλν νμ λ¬Έμ λ₯Ό μννμ΅λλ€.
π μμ¬μ λ° νκ³
β’
κ°ννμ΅μμ μΆλ‘ μ νλ ν₯μκ³Ό μ λ’°λ κ°μ μ λ³λμ λͺ©νλ‘ λΆλ¦¬νμ¬ μ΅μ νν΄μΌ ν¨κ³Όμ μ΄λΌλ μ΄λ‘ μ λ° μ€μ¦μ κ·Όκ±°λ₯Ό μ μν©λλ€.
β’
μ μλ DCPO νλ μμν¬λ LLMμ μ λ’°λλ₯Ό ν¬κ² ν₯μμμΌ λ³΄λ€ μμ μ μΈ λ°°ν¬μ κΈ°μ¬ν μ μμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ νΉμ RLVR μ€μ μμμ μ λ’°λ μ ν λ¬Έμ λ₯Ό λ€λ£¨μμΌλ©°, λ€λ₯Έ κ°ννμ΅ μ€μ μ΄λ LLM μν€ν μ²μμμ μΌλ°ν κ°λ₯μ±μ λν μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage