Sign In

TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Heiko Ludwig, Holger Boche

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‹€νšŒμ°¨ κ°•ν™”ν•™μŠ΅(multi-turn RL)μ—μ„œ λ°œμƒν•˜λŠ” ν¬μ†Œν•˜κ±°λ‚˜ μ§€μ—°λœ 보상, ν™˜κ²½μ˜ ν™•λ₯ μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ TSR(Trajectory-Search Rollouts)μ΄λΌλŠ” μƒˆλ‘œμš΄ ν›ˆλ ¨ 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. TSR은 ν…ŒμŠ€νŠΈ μ‹œμ μ—μ„œ μ‚¬μš©λ˜λŠ” μŠ€μΌ€μΌλ§ 아이디어λ₯Ό ν™œμš©ν•˜μ—¬ 각 ν„΄λ§ˆλ‹€ κ³ ν’ˆμ§ˆμ˜ ꢀ적(trajectory)을 μƒμ„±ν•˜λ©°, 이λ₯Ό 톡해 ν•™μŠ΅μ„ μ•ˆμ •ν™”ν•˜κ³  μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. μ œμ•ˆλœ 기법은 κ²½λŸ‰ 트리 탐색을 톡해 고득점 μ•‘μ…˜μ„ μ„ νƒν•¨μœΌλ‘œμ¨ ꢀ적의 μ§ˆμ„ 높이며, ν‘œμ€€ μ •μ±… 경사 μ΅œμ ν™”κΈ°μ™€ ν˜Έν™˜λ˜μ–΄ μ΅œμ ν™”κΈ° λ…λ¦½μ μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
TSR은 탐색을 μΆ”λ‘  μ‹œκ°„μ—μ„œ ν›ˆλ ¨ λ‹¨κ³„μ˜ 둀아웃(rollout) 생성 μ‹œμ μœΌλ‘œ μ΄λ™μ‹œμΌœ, λ‹€νšŒμ°¨ ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜λŠ” LLM μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 효과적으둜 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 Sokoban, FrozenLake, WebShopκ³Ό 같은 λ‹€μ–‘ν•œ ν™˜κ²½μ—μ„œ κΈ°μ‘΄ 방식 λŒ€λΉ„ μ΅œλŒ€ 15%의 μ„±λŠ₯ ν–₯상과 ν•™μŠ΅ μ•ˆμ •μ„± 증진을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
TSR은 κΈ°μ‘΄ ν”„λ ˆμž„μ›Œν¬μ™€ κ±°λΆ€ μƒ˜ν”Œλ§ 방식과 λ³΄μ™„μ μœΌλ‘œ ν™œμš©λ  수 μžˆλŠ” λͺ¨λ“ˆμ‹μ΄κ³  λ²”μš©μ μΈ λ©”μ»€λ‹ˆμ¦˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ œμ•ˆλœ TSR은 ν›ˆλ ¨ μ»΄ν“¨νŒ… μžμ›μ— μ•½κ°„μ˜ μΌνšŒμ„± 증가λ₯Ό μš”κ΅¬ν•˜λ©°, 탐색 μ „λž΅μ˜ λ‹€μ–‘ν™” 및 λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘