Sign In

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Created by
  • Haebom
Category
Empty

μ €μž

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo, Difan Zou

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)은 단일 ν„΄μ—μ„œλŠ” λ›°μ–΄λ‚œ μΆ”λ‘  λŠ₯λ ₯을 λ³΄μ΄μ§€λ§Œ, 정보가 μ μ§„μ μœΌλ‘œ κ³΅κ°œλ˜κ±°λ‚˜ μ—…λ°μ΄νŠΈλ˜λŠ” 닀쀑 ν„΄ μƒν˜Έμž‘μš©μ—μ„œλŠ” μ„±λŠ₯이 크게 μ €ν•˜λ˜λŠ” 문제λ₯Ό κ²ͺμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ 이전 μΆ”λ‘  과정을 κ³ μˆ˜ν•˜λ©° μƒˆλ‘œμš΄ 정보λ₯Ό λ¬΄μ‹œν•˜λŠ” 'λ§₯락적 κ΄€μ„±' ν˜„μƒ λ•Œλ¬Έμž…λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ λ§₯락적 관성을 κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ 단일 ν„΄μ—μ„œμ˜ μš°μˆ˜ν•œ μΆ”λ‘  λŠ₯λ ₯을 μ•ˆμ •μ μΈ κΈ°μ€€μœΌλ‘œ ν™œμš©ν•˜λŠ” κ°•ν™”ν•™μŠ΅ 기반 ν›ˆλ ¨ 방식인 RLSTA(Reinforcement Learning with Single-Turn Anchors)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
닀쀑 ν„΄ μƒν˜Έμž‘μš©μ—μ„œ LLM의 λ§₯락적 κ΄€μ„± 문제λ₯Ό ν•΄κ²°ν•˜μ—¬ μ„±λŠ₯ μ•ˆμ •μ„±μ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
단일 ν„΄μ—μ„œμ˜ λͺ¨λΈ λŠ₯λ ₯을 ν™œμš©ν•˜μ—¬ λ³„λ„μ˜ μ™ΈλΆ€ 검증기 없이도 효과적으둜 μž‘λ™ν•˜λ©°, μˆ˜ν•™μ—μ„œ μ½”λ”©μœΌλ‘œμ˜ 도메인 κ°„ μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ RLSTAλŠ” λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ™€ λ„λ©”μΈμ—μ„œ μΌλ°˜ν™” κ°€λŠ₯ν•œ ν›ˆλ ¨ μ ‘κ·Ό λ°©μ‹μœΌλ‘œμ„œ 잠재λ ₯이 λ†’μŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” RLSTA의 적용 λ²”μœ„λ₯Ό λ”μš± λ„“νžˆκ³ , λ³΅μž‘ν•˜κ³  λ―Έλ¬˜ν•œ λ§₯락 변화에 λŒ€ν•œ λͺ¨λΈμ˜ 적응λ ₯을 λ”μš± κ°•ν™”ν•˜λŠ” λ°©ν–₯을 λͺ¨μƒ‰ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘