Sign In

A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Mengqi Li, Lei Zhao, Anthony Man-Cho So, Ruoyu Sun, Xiao Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ™ΈλΆ€ 보상 없이 μ–Έμ–΄ λͺ¨λΈμ΄ 슀슀둜 μƒμ„±ν•œ 응닡을 μ΄μš©ν•΄ μΆ”λ‘  μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” **SePT(Self-evolving Post-Training)**λΌλŠ” μƒˆλ‘œμš΄ ν›„ν•™μŠ΅ 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. SePTλŠ” λͺ¨λΈμ΄ μ§ˆλ¬Έμ„ μƒ˜ν”Œλ§ν•˜κ³ , νŠΉμ • μ˜¨λ„ μ„€μ • ν•˜μ— 슀슀둜 응닡을 μƒμ„±ν•˜λ©°, μ΄λ ‡κ²Œ μƒμ„±λœ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λͺ¨λΈμ„ μž¬ν›ˆλ ¨ν•˜λŠ” 과정을 λ°˜λ³΅ν•©λ‹ˆλ‹€. 이 반볡적인 자기 ν›ˆλ ¨ κ³Όμ •μ—μ„œ 온라인 데이터 κ°±μ‹  λ©”μ»€λ‹ˆμ¦˜μ„ μ‚¬μš©ν•˜μ—¬ κ°€μž₯ μ΅œκ·Όμ— μ—…λ°μ΄νŠΈλœ λͺ¨λΈλ‘œ μƒˆλ‘œμš΄ 데이터λ₯Ό μƒμ„±ν•¨μœΌλ‘œμ¨ 지속적인 κ°œμ„ μ„ μ΄λŒμ–΄λƒ…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ™ΈλΆ€ 보상 없이도 LLM μΆ”λ‘  μ„±λŠ₯ ν–₯상 κ°€λŠ₯μ„± μž…μ¦: λ³„λ„μ˜ μ™ΈλΆ€ λ°μ΄ν„°λ‚˜ μ „λ¬Έκ°€ 보상 없이도 λͺ¨λΈ 자체의 생성 데이터λ₯Ό ν™œμš©ν•˜μ—¬ μΆ”λ‘  λŠ₯λ ₯을 효과적으둜 κ°œμ„ ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
κ°„λ‹¨ν•˜μ§€λ§Œ 효과적인 자기 ν›ˆλ ¨ ν”„λ ˆμž„μ›Œν¬ μ œμ‹œ: SePTλŠ” κ΅¬ν˜„μ΄ κ°„λ‹¨ν•˜λ©΄μ„œλ„ μˆ˜ν•™μ  μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ—μ„œ κ°•λ ₯ν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν•˜μ—¬ μ‹€μš©μ μΈ 자기 감독 ν•™μŠ΅ λ°©μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
온라인 데이터 κ°±μ‹  및 μ˜¨λ„ 쑰절의 μ€‘μš”μ„± κ°•μ‘°: 자기 ν›ˆλ ¨ κ³Όμ •μ—μ„œ μƒμ„±λ˜λŠ” λ°μ΄ν„°μ˜ 신선도와 μƒ˜ν”Œλ§ μ˜¨λ„μ˜ 동적 λ³€ν™”κ°€ μ„±λŠ₯ ν–₯상에 핡심적인 역할을 ν•œλ‹€λŠ” 점을 μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μƒμ„±λœ λ°μ΄ν„°μ˜ ν’ˆμ§ˆ 관리 및 편ν–₯μ„± 문제: λͺ¨λΈμ΄ 슀슀둜 μƒμ„±ν•œ λ°μ΄ν„°λŠ” λ‚΄μž¬λœ 편ν–₯μ΄λ‚˜ 였λ₯˜λ₯Ό 포함할 수 있으며, μ΄λŸ¬ν•œ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ„ μ–΄λ–»κ²Œ 효과적으둜 κ΄€λ¦¬ν•˜κ³  였λ₯˜λ₯Ό μ΅œμ†Œν™”ν•  것인지에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘