Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
λΉ„μ–΄ 있음

μ €μž

Chanuk Lee, Sangwoo Park, Minki Kang, Sung Ju Hwang

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅ 기반 검증 보상(RLVR)μ—μ„œ 효과적인 탐색 μ „λž΅ λΆ€μž¬λΌλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ œμ•ˆν•˜λŠ” NudgeRL ν”„λ ˆμž„μ›Œν¬λŠ” 'μ „λž΅ λ„ˆμ§•(Strategy Nudging)' 기법을 톡해 λ³„λ„μ˜ κ³ λΉ„μš© 지도 없이도 λ‹€μ–‘ν•œ μΆ”λ‘  경둜λ₯Ό νƒμƒ‰ν•˜λ©°, 이λ₯Ό μœ„ν•΄ 보상 μ‹ ν˜Έλ₯Ό λΆ„ν•΄ν•˜κ³  발견된 행동을 κΈ°λ³Έ μ •μ±…μœΌλ‘œ μ΄μ „ν•˜λŠ” 톡합 λͺ©ν‘œ ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, NudgeRL은 κΈ°μ‘΄ 방법둠보닀 훨씬 적은 둀아웃 μ˜ˆμ‚°μœΌλ‘œλ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RLVRμ—μ„œ 계산 λΉ„μš©μ΄ 많이 λ“œλŠ” 무차별적인 둀아웃 ν™•μž₯μ΄λ‚˜ 특ꢌ 정보λ₯Ό ν™œμš©ν•˜λŠ” κΈ°μ‘΄ 방식 λŒ€μ‹ , 효율적이고 ν™•μž₯ κ°€λŠ₯ν•œ 탐색 μ „λž΅μœΌλ‘œ 'μ „λž΅ λ„ˆμ§•'이 νš¨κ³Όμ μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
κ²½λŸ‰ν™”λœ μ „λž΅ μˆ˜μ€€ μ»¨ν…μŠ€νŠΈλ₯Ό ν™œμš©ν•˜μ—¬ λΉ„μš© 효율적으둜 λ‹€μ–‘ν•œ μΆ”λ‘  ꢀ적을 μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 톡합 λͺ©ν‘œ ν•¨μˆ˜λŠ” λ³΅μž‘ν•œ 보상 μ‹ ν˜Έλ₯Ό 효과적으둜 ν™œμš©ν•˜μ—¬ κΈ°λ³Έ μ •μ±…μ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μˆ˜ν•™ λŠ₯λ ₯κ³Ό 같은 λ³΅μž‘ν•œ μΆ”λ‘  μž‘μ—…μ—μ„œ RLVR의 효과λ₯Ό 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μƒˆλ‘œμš΄ 탐색 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ³΅μž‘ν•˜κ³  λ‹€μ–‘ν•œ μž‘μ—…μ— NudgeRL을 μ μš©ν•˜κ±°λ‚˜, μ „λž΅ λ„ˆμ§•μ„ μœ„ν•œ μ»¨ν…μŠ€νŠΈλ₯Ό μžλ™ ν•™μŠ΅ν•˜λŠ” 방법에 λŒ€ν•œ 탐ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘