Sign In

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μž₯기적인 μ˜μ‚¬ 결정에 어렀움을 κ²ͺλŠ” LLM 기반 μ—μ΄μ „νŠΈμ˜ ν•™μŠ΅μ„ κ°œμ„ ν•˜κΈ° μœ„ν•΄ 'μ „λž΅μ  ꢀ적 좔상화(StraTA)'λΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. StraTAλŠ” 초기 μƒνƒœμ—μ„œ μ••μΆ•λœ μ „λž΅μ„ μƒ˜ν”Œλ§ν•˜κ³ , 이λ₯Ό 기반으둜 후속 행동을 κ²°μ •ν•˜λ©°, 계측적 GRPO 둀아웃 섀계λ₯Ό 톡해 μ „λž΅ 생성과 행동 싀행을 κ³΅λ™μœΌλ‘œ ν•™μŠ΅ν•©λ‹ˆλ‹€. ALFWorld, WebShop, SciWorldμ—μ„œμ˜ μ‹€ν—˜ κ²°κ³Ό, StraTAλŠ” μƒ˜ν”Œ νš¨μœ¨μ„±κ³Ό μ΅œμ’… μ„±λŠ₯ λͺ¨λ‘μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM 기반 μ—μ΄μ „νŠΈκ°€ μž₯기적인 μ˜μ‚¬ κ²°μ • 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 데 μžˆμ–΄ 탐색 및 μ‹ μš© ν• λ‹Ή 문제λ₯Ό κ°œμ„ ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
계측적 ν•™μŠ΅κ³Ό μ „λž΅ 기반 μ˜μ‚¬ κ²°μ • 방식을 톡해 μ—μ΄μ „νŠΈμ˜ ν•™μŠ΅ νš¨μœ¨μ„±κ³Ό μ΅œμ’… μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ ν™˜κ²½μ—μ„œ SOTA λͺ¨λΈμ„ λŠ₯κ°€ν•˜λŠ” κ²°κ³Όλ₯Ό λ‹¬μ„±ν•˜μ—¬ LLM 기반 μ—μ΄μ „νŠΈ μ—°κ΅¬μ˜ μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ—΄μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ 'μ „λž΅μ  ꢀ적 좔상화'의 μΌλ°˜ν™” κ°€λŠ₯μ„±κ³Ό μ‹€μ œ λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ μ μš©μ„±μ€ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘