Sign In

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

πŸ’‘ κ°œμš”

κΈ°μ‘΄ κ°•ν™”ν•™μŠ΅ 기반 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) λ―Έμ„Έ μ‘°μ • 기법은 ν•™μŠ΅ μ•ˆμ •μ„± 확보λ₯Ό μœ„ν•΄ νœ΄λ¦¬μŠ€ν‹± 기법에 μ˜μ‘΄ν•˜μ§€λ§Œ, μ’…μ’… ν›„λ°˜λΆ€μ— μ„±λŠ₯ μ €ν•˜(collapse)λ₯Ό κ²ͺλŠ” 문제λ₯Ό λ³΄μž…λ‹ˆλ‹€. μ΄λŠ” 전체 μ‹œν€€μŠ€ μˆ˜μ€€μ˜ 보상을 λ°›λŠ” μ†Œμˆ˜μ˜ ν¬κ·€ν•˜λ©΄μ„œλ„ μΆ”λ‘  결과에 큰 κΈ°μ—¬λ₯Ό ν•˜μ§€ μ•ŠλŠ” "μŠ€ν“¨λ¦¬μ–΄μŠ€ 토큰"이 κ³Όλ„ν•œ κ·Έλž˜λ””μ–ΈνŠΈ μ—…λ°μ΄νŠΈλ₯Ό λ°›λŠ” λ°μ„œ κΈ°μΈν•©λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ μŠ€ν“¨λ¦¬μ–΄μŠ€ ν† ν°μ˜ ν•™μŠ΅ λΆˆμ•ˆμ •μ„±μ„ μ–΅μ œν•˜λŠ” STAPO (Spurious-Token-Aware Policy Optimization) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜μ—¬, LLM의 μ•ˆμ •μ μ΄κ³  효과적인 λ―Έμ„Έ 쑰정을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM κ°•ν™”ν•™μŠ΅μ—μ„œ ν•™μŠ΅ λΆˆμ•ˆμ •μ„±μ˜ μ£Όμš” 원인을 "μŠ€ν“¨λ¦¬μ–΄μŠ€ 토큰"으둜 규λͺ…ν•˜κ³ , 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ λ©”μ»€λ‹ˆμ¦˜(S2T)을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ STAPO ν”„λ ˆμž„μ›Œν¬λŠ” μˆ˜ν•™μ  μΆ”λ‘  λ“± λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯κ³Ό μ•ˆμ •μ„±μ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
μŠ€ν“¨λ¦¬μ–΄μŠ€ 토큰 식별 및 μ–΅μ œ λ©”μ»€λ‹ˆμ¦˜μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€λ₯Έ μ’…λ₯˜μ˜ LLM νƒœμŠ€ν¬μ— λŒ€ν•œ 적용 κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘