Sign In

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Created by
  • Haebom
Category
Empty

μ €μž

Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

πŸ’‘ κ°œμš”

κΈ°μ‘΄ κ°•ν™”ν•™μŠ΅(RL) 기반 LLM νŒŒμΈνŠœλ‹ 방식은 ν•™μŠ΅λœ κ°€μΉ˜ ν•¨μˆ˜λ₯Ό 버리고 κ²½ν—˜μ μœΌλ‘œ μΆ”μ •λœ 리턴을 μ‚¬μš©ν•˜λŠ”λ°, μ΄λŠ” ν…ŒμŠ€νŠΈ μ‹œ κ°€μΉ˜ ν•¨μˆ˜λ₯Ό ν™œμš©ν•œ 검증에 ν•„μš”ν•œ μ»΄ν“¨νŒ… μžμ› ν™•μž₯성을 μ €ν•΄ν•©λ‹ˆλ‹€. λ³Έ 논문은 "κ°€μΉ˜ ν•¨μˆ˜ μ—†λŠ”" RL 방법에 RL$^V$ λ₯Ό μ œμ•ˆν•˜μ—¬, RL 생성 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ LLM을 μΆ”λ‘ μžμ™€ 생성적 κ²€μ¦μž(verifier)둜 ν•¨κ»˜ ν•™μŠ΅μ‹œν‚΄μœΌλ‘œμ¨ 검증 κΈ°λŠ₯을 μΆ”κ°€ν•˜κ³  ν…ŒμŠ€νŠΈ μ‹œ μ»΄ν“¨νŒ… μžμ› ν™•μž₯성을 ν™•λ³΄ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ RL λ°©λ²•λ‘ μ—μ„œ λ²„λ €μ§€λ˜ κ°€μΉ˜ ν•¨μˆ˜λ₯Ό 효과적으둜 μž¬ν™œμš©ν•˜μ—¬ ν…ŒμŠ€νŠΈ μ‹œ 검증을 ν†΅ν•œ μ„±λŠ₯ ν–₯상 및 μ»΄ν“¨νŒ… μžμ› ν™•μž₯성을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
MATH λ°μ΄ν„°μ…‹μ—μ„œ 20% μ΄μƒμ˜ 정확도 ν–₯상을 λ³΄μ˜€μœΌλ©°, 병렬 μƒ˜ν”Œλ§ μ‹œ κΈ°λ³Έ RL 방식 λŒ€λΉ„ 8-32배의 효율적인 ν…ŒμŠ€νŠΈ μ‹œ μ»΄ν“¨νŒ… μžμ› ν™•μž₯이 κ°€λŠ₯ν•©λ‹ˆλ‹€.
β€’
μ‰¬μš΄ λ¬Έμ œλΆ€ν„° μ–΄λ €μš΄ λ¬Έμ œκΉŒμ§€, 그리고 ν•™μŠ΅ 데이터셋 λ²”μœ„λ₯Ό λ²—μ–΄λ‚˜λŠ”(out-of-domain) νƒœμŠ€ν¬μ— λŒ€ν•΄μ„œλ„ λ›°μ–΄λ‚œ μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ RL$^V$ λ°©λ²•λ‘ μ˜ 근본적인 ν•œκ³„μ μ΄λ‚˜ ν–₯ν›„ 연ꡬ λ°©ν–₯에 λŒ€ν•œ ꡬ체적인 언급은 μ΄ˆλ‘μ—μ„œ λΆ€μ‘±ν•©λ‹ˆλ‹€. 특히, κ²€μ¦μž ν•™μŠ΅μ˜ 좔가적인 μ˜€λ²„ν—€λ“œλ‚˜ λ³΅μž‘μ„±μ— λŒ€ν•œ 심측적인 뢄석이 더 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘