Sign In

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Guobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 κ°•ν™”ν•™μŠ΅(RL) ν›ˆλ ¨ μ‹œ λΆˆκ°€ν”Όν•˜κ²Œ λ°œμƒν•˜λŠ” μ˜€ν”„-ν΄λ¦¬μ‹œ(off-policy) μ—…λ°μ΄νŠΈλŠ” 높은 λΆ„μ‚°μœΌλ‘œ 인해 ν•™μŠ΅ λΆˆμ•ˆμ •μ„±μ„ μ•ΌκΈ°ν•©λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 변뢄적 μ ‘κ·Ό 방식을 톡해 뢄산을 λͺ…μ‹œμ μœΌλ‘œ μ€„μ΄λŠ” μ‹œν€€μŠ€ 레벨 μ†Œν”„νŠΈ μ •μ±… μ΅œμ ν™” 기법인 VESPOλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. VESPOλŠ” 토큰 레벨의 κ·Όμ‚¬λ‚˜ 길이 μ •κ·œν™”λ₯Ό ν”Όν•˜λ©΄μ„œ μ§μ ‘μ μœΌλ‘œ μ‹œν€€μŠ€ 레벨 μ€‘μš”λ„ κ°€μ€‘μΉ˜λ₯Ό μž¬ν˜•μ„±ν•˜λŠ” 원리적인 방법을 μ œμ‹œν•˜λ©°, μ‹€μ œ μˆ˜ν•™ μΆ”λ‘  및 μ½”λ“œ 생성 μž‘μ—…μ—μ„œ μ‹¬κ°ν•œ μ˜€ν”„-ν΄λ¦¬μ‹œ μƒν™©μ—μ„œλ„ μ•ˆμ •μ μΈ ν›ˆλ ¨κ³Ό μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 μ•ˆμ •μ μΈ μ˜€ν”„-ν΄λ¦¬μ‹œ RL ν›ˆλ ¨μ„ μœ„ν•œ 이둠적으둜 λ’·λ°›μΉ¨λ˜λŠ” μƒˆλ‘œμš΄ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
기쑴의 νœ΄λ¦¬μŠ€ν‹±ν•œ 기법듀과 달리, 뢄산에 λŒ€ν•œ λͺ…μ‹œμ μΈ μ œμ•½μ„ 톡해 μ‹ λ’°μ„± μžˆλŠ” μ„±λŠ₯ κ°œμ„ μ„ λ‹¬μ„±ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ»€λ„μ˜ 이둠적 λΆ„μ‚° μƒν•œμ΄ μ‹€μ œ ν›ˆλ ¨μ—μ„œμ˜ λΆ„μ‚° κ°μ†Œ 효과λ₯Ό μ–Όλ§ˆλ‚˜ 잘 λ°˜μ˜ν•˜λŠ”μ§€μ— λŒ€ν•œ 좔가적인 뢄석이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘