haebom
Sign In
TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents
Created by
Haebom
Category
Empty
μ μ
Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ€μ€ ν΄(multi-turn) κ°ννμ΅(RL) νκ²½μμ LLM μμ΄μ νΈ νμ΅μ μ΄λ €μμ ν΄κ²°νκΈ° μν μλ‘μ΄ νλ ¨ λ°©λ²λ‘ μΈ TSR (Trajectory-Search Rollouts)μ μ μν©λλ€. TSRμ κ° ν΄λ§λ€ κ²½λνλ νΈλ¦¬ νμμ ν΅ν΄ κ³ νμ§μ κΆ€μ (trajectory)μ μμ±νμ¬ νμ΅ μμ μ±μ λμ΄κ³ μ±λ₯μ ν₯μμν΅λλ€. μ΄λ₯Ό ν΅ν΄ ν¬μνκ±°λ μ§μ°λ 보μ λ¬Έμ λ‘ μΈν νμ ν¨μ¨ μ νλ₯Ό κ°μ νκ³ λͺ¨λ λΆκ΄΄(mode collapse)λ₯Ό λ°©μ§ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLM κΈ°λ° λ€μ€ ν΄ RL νμ΅μμ κΆ€μ μμ± νμ§μ ν₯μμμΌ νμ΅ μμ μ±κ³Ό μ±λ₯μ ν¬κ² κ°μ ν μ μμ΅λλ€.
β’
κΈ°μ‘΄ μ΅μ ν λ°©λ²λ‘ (PPO, GRPO λ±) λ° νμ μ λ΅(best-of-N, beam search λ±)μ μ½κ² ν΅ν©λ μ μλ μΌλ°μ μΈ μ κ·Ό λ°©μμ λλ€.
β’
νλ ¨ μ μΆκ°μ μΈ κ³μ° λΉμ©μ΄ λ°μνλ©°, νμ κΉμ΄ λ° μ λ΅ μ νμ΄ μ±λ₯μ μν₯μ λ―ΈμΉ μ μμ΅λλ€.
PDF 보기
Made with Slashpage