Sign In

How You Begin is How You Reason: Driving Exploration in RLVR via Prefix-Tuned Priors

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yifan Xu, Junren Chen, Yifan Chen

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅ 기반 검증 κ°€λŠ₯ν•œ 보상(RLVR)이 LLM μΆ”λ‘  μž‘μ—…μ—μ„œ 효과적인 νƒμƒ‰μ˜ 어렀움, 특히 μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄ ν˜„μƒμœΌλ‘œ 인해 λ°œμƒν•˜λŠ” λ¬Έμ œμ μ„ ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄, μΆ”λ‘  ꢀ적에 λŒ€ν•œ λͺ¨λΈμ˜ 사전 뢄포λ₯Ό μž¬κ΅¬μ„±ν•˜λŠ” soft prefix 풀을 ν•™μŠ΅ν•˜λŠ” 정보 μ΅œλŒ€ν™” 증강 탐색(IMAX) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ IMAXλŠ” 검증 κ°€λŠ₯ν•œ 보상에 더해 정보 μ΅œλŒ€ν™” 보상을 ν™œμš©ν•˜μ—¬ λ‹€μ–‘ν•œ μΆ”λ‘  ν–‰λ™μ˜ λ°œκ²¬μ„ μ΄‰μ§„ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
RLVRμ—μ„œ λ°œμƒν•˜λŠ” μ—”νŠΈλ‘œν”Ό λΆ•κ΄΄ 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•˜μ—¬ μΆ”λ‘  ꢀ적의 닀양성을 확보할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
정보 μ΅œλŒ€ν™” 보상과 soft prefixλ₯Ό 톡해 κΈ°μ‘΄ RLVR νŒŒμ΄ν”„λΌμΈμ— μ‰½κ²Œ 톡합 κ°€λŠ₯ν•˜λ©°, λͺ¨λΈ μŠ€μΌ€μΌμ— 관계없이 μ„±λŠ₯ ν–₯상을 λ³΄μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠이 더 λ³΅μž‘ν•˜κ±°λ‚˜ λ‹€μ–‘ν•œ μœ ν˜•μ˜ LLM μΆ”λ‘  μž‘μ—…μ— μ–Όλ§ˆλ‚˜ νš¨κ³Όμ μΌμ§€μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘