haebom
Sign In
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
π‘ κ°μ
λ³Έ μ°κ΅¬λ μ₯κΈ°μ μΈ μμ¬ κ²°μ μ μ΄λ €μμ κ²ͺλ LLM κΈ°λ° μμ΄μ νΈμ νμ΅μ κ°μ νκΈ° μν΄ 'μ λ΅μ κΆ€μ μΆμν(StraTA)'λΌλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€. StraTAλ μ΄κΈ° μνμμ μμΆλ μ λ΅μ μνλ§νκ³ , μ΄λ₯Ό κΈ°λ°μΌλ‘ νμ νλμ κ²°μ νλ©°, κ³μΈ΅μ GRPO λ‘€μμ μ€κ³λ₯Ό ν΅ν΄ μ λ΅ μμ±κ³Ό νλ μ€νμ 곡λμΌλ‘ νμ΅ν©λλ€. ALFWorld, WebShop, SciWorldμμμ μ€ν κ²°κ³Ό, StraTAλ μν ν¨μ¨μ±κ³Ό μ΅μ’ μ±λ₯ λͺ¨λμμ κΈ°μ‘΄ λ°©λ²λ‘ λλΉ μ°μν μ±λ₯μ 보μμ΅λλ€.
π μμ¬μ λ° νκ³
β’
LLM κΈ°λ° μμ΄μ νΈκ° μ₯κΈ°μ μΈ μμ¬ κ²°μ λ¬Έμ λ₯Ό ν΄κ²°νλ λ° μμ΄ νμ λ° μ μ© ν λΉ λ¬Έμ λ₯Ό κ°μ ν μ μλ μλ‘μ΄ μ κ·Ό λ°©μμ μ μν©λλ€.
β’
κ³μΈ΅μ νμ΅κ³Ό μ λ΅ κΈ°λ° μμ¬ κ²°μ λ°©μμ ν΅ν΄ μμ΄μ νΈμ νμ΅ ν¨μ¨μ±κ³Ό μ΅μ’ μ±λ₯μ ν₯μμν¬ μ μμμ μ€νμ μΌλ‘ μ μ¦νμ΅λλ€.
β’
λ€μν νκ²½μμ SOTA λͺ¨λΈμ λ₯κ°νλ κ²°κ³Όλ₯Ό λ¬μ±νμ¬ LLM κΈ°λ° μμ΄μ νΈ μ°κ΅¬μ μλ‘μ΄ κ°λ₯μ±μ μ΄μμ΅λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ 'μ λ΅μ κΆ€μ μΆμν'μ μΌλ°ν κ°λ₯μ±κ³Ό μ€μ 볡μ‘ν μλ리μ€μμμ μ μ©μ±μ μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage