Sign In

SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Chanuk Lee, Minki Kang, Sung Ju Hwang

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅ 기반 검증 κ°€λŠ₯ν•œ 보상(RLVR)이 LLM의 μΆ”λ‘  λŠ₯λ ₯ ν–₯상에 κΈ°μ—¬ν•˜μ§€λ§Œ, 특히 pass@kμ—μ„œμ˜ μ„±λŠ₯ κ°œμ„ μ΄ μ œν•œμ μ΄λΌλŠ” κΈ°μ‘΄ μ—°κ΅¬μ˜ ν•œκ³„λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. μ €μžλ“€μ€ μ΄λŸ¬ν•œ ν•œκ³„κ°€ μ—­ KL λ°œμ‚° μ •κ·œν™”κ°€ 정책을 μ°Έμ‘° 뢄포에 κ³ μ •μ‹œμΌœ μƒˆλ‘œμš΄ μΆ”λ‘  λ°©μ‹μ˜ μΆœν˜„μ„ μ–΅μ œν•˜λŠ” ꡬ쑰적 μ œμ•½μ—μ„œ λΉ„λ‘―λœλ‹€κ³  μ£Όμž₯ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, SAGE ν”„λ ˆμž„μ›Œν¬λŠ” μ•ˆλ‚΄ ν•¨μˆ˜ q(x,y)λ₯Ό 톡해 μ—­ KL 액컀 뢄포λ₯Ό μž¬κ΅¬μ„±ν•˜μ—¬ κ²½ν—˜μ  지원 ν™•μž₯을 μ œμ–΄ν•¨μœΌλ‘œμ¨, μ–΄λ €μš΄ μˆ˜ν•™μ  μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ pass@1κ³Ό pass@k λͺ¨λ‘μ—μ„œ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RLVR의 pass@k μ„±λŠ₯ κ°œμ„  ν•œκ³„λŠ” μ—­ KL μ •κ·œν™”μ˜ ꡬ쑰적 μ œμ•½μ—μ„œ κΈ°μΈν•˜λ©°, λ‹¨μˆœνžˆ KL 항을 μ œκ±°ν•˜κ±°λ‚˜ λ³€κ²½ν•˜λŠ” κ²ƒλ§ŒμœΌλ‘œλŠ” ν•΄κ²°λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.
β€’
SAGE ν”„λ ˆμž„μ›Œν¬λŠ” 액컀 뢄포λ₯Ό λ™μ μœΌλ‘œ μž¬κ΅¬μ„±ν•¨μœΌλ‘œμ¨ LLM의 탐색 λ²”μœ„λ₯Ό 효과적으둜 ν™•μž₯ν•˜κ³ , μΆ”λ‘  λŠ₯λ ₯의 질적 ν–₯상을 μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” LLM의 탐색 νš¨μœ¨μ„±κ³Ό κ²°κ³Ό 컀버리지 μ‚¬μ΄μ˜ κ· ν˜•μ„ λ§žμΆ”λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•˜λ©°, μˆ˜ν•™μ  μΆ”λ‘  λΆ„μ•Όμ—μ„œ RLVR의 적용 κ°€λŠ₯성을 크게 ν™•μž₯ν•©λ‹ˆλ‹€.
β€’
SAGE의 μ•ˆλ‚΄ ν•¨μˆ˜ q(x,y) 섀계에 λŒ€ν•œ 좔가적인 탐색과 λ‹€μ–‘ν•œ μΆ”λ‘  μž‘μ—…μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증이 ν–₯ν›„ 연ꡬ 과제둜 λ‚¨μ•„μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘