Sign In

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Created by
  • Haebom
Category
Empty

μ €μž

Xinshun Feng, Xinhao Song, Lijun Li, Gongshen Liu, Jing Shao

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κ°•ν™”ν•™μŠ΅ 기반 μ—μ΄μ „νŠΈκ°€ μžμ› μ œμ•½ ν™˜κ²½μ—μ„œλ„ 효과적으둜 ν•™μŠ΅ν•˜κ³  λ°œμ „ν•  수 μžˆλ„λ‘ ν•˜λŠ” SEARL(Self-Evolving Agentic framework with Tool-Memory) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. SEARL은 κΈ°μ‘΄ 방식과 달리, κ³„νšκ³Ό 싀행을 ν†΅ν•©ν•˜λŠ” κ΅¬μ‘°ν™”λœ κ²½ν—˜ λ©”λͺ¨λ¦¬λ₯Ό κ΅¬μΆ•ν•˜μ—¬ μƒˆλ‘œμš΄ μƒνƒœ 좔상화λ₯Ό μ œκ³΅ν•˜κ³  도ꡬ μž¬μ‚¬μš©κ³Ό 같은 λ§₯λ½μ—μ„œμ˜ μΌλ°˜ν™”λ₯Ό μ΄‰μ§„ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ—μ΄μ „νŠΈλŠ” κ³Όκ±° λ°μ΄ν„°μ—μ„œ λͺ…μ‹œμ μΈ 지식을 μΆ”μΆœν•˜κ³ , ꢀ적 κ°„μ˜ 상관관계λ₯Ό ν™œμš©ν•˜μ—¬ ν¬μ†Œν•œ 보상 μ‹ ν˜Έλ₯Ό λ”μš± ν’λΆ€ν•˜κ²Œ λ§Œλ“­λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μžμ› μ œμ•½ ν™˜κ²½μ—μ„œμ˜ μ—μ΄μ „νŠΈ ν•™μŠ΅ νš¨μœ¨μ„± μ¦λŒ€ κ°€λŠ₯μ„± μ œμ‹œ
β€’
κ²½ν—˜ λ©”λͺ¨λ¦¬λ₯Ό ν†΅ν•œ κ³„νš-μ‹€ν–‰ 톡합 및 μΌλ°˜ν™” λŠ₯λ ₯ ν–₯상
β€’
ν¬μ†Œν•œ 보상 μ‹ ν˜Έ 문제 μ™„ν™”λ₯Ό μœ„ν•œ μƒˆλ‘œμš΄ μ ‘κ·Ό 방식 제곡
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ³΅μž‘ν•œ μ‹€μ œ μž‘μ—… ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 검증 및 ν™•μž₯ ν•„μš”
πŸ‘