Sign In

TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents

Created by
  • Haebom
Category
Empty

μ €μž

Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche

πŸ’‘ κ°œμš”

λ³Έ 논문은 닀쀑 ν„΄(multi-turn) κ°•ν™”ν•™μŠ΅(RL) ν™˜κ²½μ—μ„œ LLM μ—μ΄μ „νŠΈ ν•™μŠ΅μ˜ 어렀움을 ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ ν›ˆλ ¨ 방법둠인 TSR (Trajectory-Search Rollouts)을 μ œμ•ˆν•©λ‹ˆλ‹€. TSR은 각 ν„΄λ§ˆλ‹€ κ²½λŸ‰ν™”λœ 트리 탐색을 톡해 κ³ ν’ˆμ§ˆμ˜ ꢀ적(trajectory)을 μƒμ„±ν•˜μ—¬ ν•™μŠ΅ μ•ˆμ •μ„±μ„ 높이고 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. 이λ₯Ό 톡해 ν¬μ†Œν•˜κ±°λ‚˜ μ§€μ—°λœ 보상 문제둜 μΈν•œ 탐색 효율 μ €ν•˜λ₯Ό κ°œμ„ ν•˜κ³  λͺ¨λ“œ λΆ•κ΄΄(mode collapse)λ₯Ό λ°©μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM 기반 닀쀑 ν„΄ RL ν•™μŠ΅μ—μ„œ ꢀ적 생성 ν’ˆμ§ˆμ„ ν–₯μƒμ‹œμΌœ ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό μ„±λŠ₯을 크게 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ μ΅œμ ν™” 방법둠(PPO, GRPO λ“±) 및 탐색 μ „λž΅(best-of-N, beam search λ“±)에 μ‰½κ²Œ 톡합될 수 μžˆλŠ” 일반적인 μ ‘κ·Ό λ°©μ‹μž…λ‹ˆλ‹€.
β€’
ν›ˆλ ¨ μ‹œ 좔가적인 계산 λΉ„μš©μ΄ λ°œμƒν•˜λ©°, 탐색 깊이 및 μ „λž΅ 선택이 μ„±λŠ₯에 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘