Sign In

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Created by
  • Haebom
Category
Empty

μ €μž

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅μ—μ„œ 신뒰도 μ €ν•˜ 문제, 특히 LLM의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상에도 λΆˆκ΅¬ν•˜κ³  λ°œμƒν•˜λŠ” κ³Όλ„ν•œ ν™•μ‹ μœΌλ‘œ μΈν•œ 였λ₯˜λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방법듀이 μΆ”λ‘  정확도와 신뒰도 κ°œμ„ μ„ λ™μ‹œμ— μ΅œμ ν™”ν•˜λ € ν–ˆμœΌλ‚˜, 이둠적 뢄석 κ²°κ³Ό 두 λͺ©ν‘œ 사이에 근본적인 좩돌이 μ‘΄μž¬ν•¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 이에 μΆ”λ‘ κ³Ό 신뒰도 λͺ©ν‘œλ₯Ό λΆ„λ¦¬ν•˜λŠ” DCPO ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜μ—¬, 정확도λ₯Ό μœ μ§€ν•˜λ©΄μ„œλ„ λ›°μ–΄λ‚œ 신뒰도 μ„±λŠ₯을 λ‹¬μ„±ν•˜κ³  κ³Όλ„ν•œ ν™•μ‹  문제λ₯Ό μ™„ν™”ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ°•ν™”ν•™μŠ΅μ—μ„œ μΆ”λ‘  정확도 ν–₯상과 신뒰도 κ°œμ„ μ€ λ³„λ„μ˜ λͺ©ν‘œλ‘œ λΆ„λ¦¬ν•˜μ—¬ μ΅œμ ν™”ν•΄μ•Ό νš¨κ³Όμ μ΄λΌλŠ” 이둠적 및 싀증적 κ·Όκ±°λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ DCPO ν”„λ ˆμž„μ›Œν¬λŠ” LLM의 신뒰도λ₯Ό 크게 ν–₯μƒμ‹œμΌœ 보닀 μ•ˆμ •μ μΈ 배포에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” νŠΉμ • RLVR μ„€μ •μ—μ„œμ˜ 신뒰도 μ €ν•˜ 문제λ₯Ό λ‹€λ£¨μ—ˆμœΌλ©°, λ‹€λ₯Έ κ°•ν™”ν•™μŠ΅ μ„€μ •μ΄λ‚˜ LLM μ•„ν‚€ν…μ²˜μ—μ„œμ˜ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘