Sign In

SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Created by
  • Haebom
Category
Empty

μ €μž

Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding

πŸ’‘ κ°œμš”

κΈ°μ‘΄ κ°•ν™”ν•™μŠ΅(RL) 기반 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) μ—μ΄μ „νŠΈ ν•™μŠ΅ 방식은 닀쀑 ν„΄(multi-turn) ν™˜κ²½μ—μ„œ ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό 졜적 μ •μ±… 수렴 보μž₯이 λΆ€μ‘±ν•œ 문제λ₯Ό μ•ˆκ³  μžˆμ—ˆμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ λ¬Έμ œμ μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‹œν€€μŠ€ μˆ˜μ€€μ—μ„œ 순차적 μ •μ±… μ—…λ°μ΄νŠΈλ₯Ό μˆ˜ν–‰ν•˜λŠ” μƒˆλ‘œμš΄ κ°•ν™”ν•™μŠ΅ 방법둠인 SeeUPOλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. SeeUPOλŠ” 닀쀑 ν„΄ μƒν˜Έμž‘μš©μ„ 순차적으둜 μ‹€ν–‰λ˜λŠ” 닀쀑 μ—μ΄μ „νŠΈ λ°΄λ”§ 문제둜 λͺ¨λΈλ§ν•˜κ³ , μ—­μˆœμœΌλ‘œ 정책을 μ—…λ°μ΄νŠΈν•˜μ—¬ μ „μ—­ μ΅œμ ν•΄λ‘œμ˜ μˆ˜λ ΄μ„ 보μž₯ν•˜λ©°, μ‹€ν—˜ κ²°κ³Ό κΈ°μ‘΄ μ•Œκ³ λ¦¬μ¦˜ λŒ€λΉ„ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상과 μ•ˆμ •μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
닀쀑 ν„΄ LLM μ—μ΄μ „νŠΈ ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” ν•™μŠ΅ λΆˆμ•ˆμ •μ„±κ³Ό 수렴 보μž₯ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ SeeUPOλŠ” λΉ„νŒμž(critic) 없이도 μ „μ—­ μ΅œμ ν•΄λ‘œμ˜ μˆ˜λ ΄μ„ 보μž₯ν•˜λ©°, μ‹€μ œ λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ SOTA(State-Of-The-Art) μ•Œκ³ λ¦¬μ¦˜ λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ—­μˆœ μ •μ±… μ—…λ°μ΄νŠΈ 방식을 μ±„νƒν•˜μ—¬ 닀쀑 ν„΄ μƒν˜Έμž‘μš©μ˜ νŠΉμ„±μ„ 효과적으둜 λ°˜μ˜ν•˜μ˜€μœΌλ‚˜, λ³΅μž‘ν•˜κ³  μž₯기적인 μ˜μ‘΄μ„±μ„ κ°€μ§„ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 및 ν™•μž₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘