Sign In

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Created by
  • Haebom
Category
Empty

μ €μž

Jiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 닀쀑 ν„΄(multi-turn) 자율 μ—μ΄μ „νŠΈ ν•™μŠ΅μ—μ„œ 기쑴의 μ •μ±… 증λ₯˜(On-policy distillation, OPD) λ°©μ‹μ˜ λΆˆμ•ˆμ •μ„± 문제λ₯Ό 규λͺ…ν•˜κ³ , 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ 'μ‹œκ°„ 컀리큘럼 기반 μ •μ±… 증λ₯˜(TCOD)'λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. TCODλŠ” 학생 λͺ¨λΈμ΄ ν•™μŠ΅ν•˜λŠ” ꢀ적(trajectory)의 길이λ₯Ό μ μ§„μ μœΌλ‘œ λŠ˜λ¦¬λŠ” μ‹œκ°„ μ»€λ¦¬ν˜λŸΌμ„ 톡해 ν„΄ κ°„ 였λ₯˜ λˆ„μ μœΌλ‘œ μΈν•œ λΆˆμ•ˆμ •μ„±μ„ μ™„ν™”ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, TCODλŠ” κΈ°μ‘΄ OPD λŒ€λΉ„ μ„±λŠ₯을 μ΅œλŒ€ 18%p ν–₯μƒμ‹œν‚€κ³ , λ•Œλ‘œλŠ” ꡐ사 λͺ¨λΈμ˜ μ„±λŠ₯을 λŠ₯κ°€ν•˜λŠ” κ²°κ³Όλ₯Ό λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
닀쀑 ν„΄ 자율 μ—μ΄μ „νŠΈ ν•™μŠ΅μ—μ„œ κΈ°μ‘΄ OPD의 ꢀ적 μˆ˜μ€€ KL λ°œμ‚° λΆˆμ•ˆμ •μ„±(Trajectory-Level KL Instability) 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ‹œκ°„ 컀리큘럼 방식은 ν„΄ κ°„ 였λ₯˜ λˆ„μ  문제λ₯Ό μ™„ν™”ν•˜μ—¬ ν•™μŠ΅ μ•ˆμ •μ„±μ„ 높이고 μ—μ΄μ „νŠΈ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
TCODλŠ” ꡐ사 λͺ¨λΈμ˜ μ„±λŠ₯을 λ›°μ–΄λ„˜κ³ , ꡐ사 λͺ¨λΈμ΄ μ‹€νŒ¨ν•˜λŠ” μƒˆλ‘œμš΄ μž‘μ—…μ—μ„œλ„ μΌλ°˜ν™” λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ‹œκ°„ 컀리큘럼의 졜적 μŠ€μΌ€μ€„λ§μ΄λ‚˜ λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ μ—μ΄μ „νŠΈ 및 μž‘μ—…μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 탐ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘