Sign In

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Created by
  • Haebom
Category
Empty

μ €μž

Xinshun Feng, Xinhao Song, Lijun Li, Gongshen Liu, Jing Shao

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅ 기반 μžκ°€ λ°œμ „ μ—μ΄μ „νŠΈ ν•™μŠ΅μ˜ 핡심 문제점인 μžμ› μ œμ•½ ν™˜κ²½μ—μ„œμ˜ 배포 어렀움과 κ²°κ³Ό 기반 λ³΄μƒμ˜ ν¬μ†Œμ„±μ„ ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ SEARLμ΄λΌλŠ” 도ꡬ-κΈ°μ–΅ 기반 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, κ³„νšκ³Ό 싀행을 ν†΅ν•©ν•˜λŠ” κ΅¬μ‘°ν™”λœ κ²½ν—˜ 기얡을 톡해 도ꡬ μž¬μ‚¬μš© λ“± μœ μ‚¬ λ§₯λ½μ—μ„œμ˜ μΌλ°˜ν™”λ₯Ό μ΄‰μ§„ν•˜κ³ , ꢀ적 κ°„μ˜ 상관관계λ₯Ό ν™œμš©ν•˜μ—¬ 보상 μ‹ ν˜Έλ₯Ό μ‘°λ°€ν•˜κ²Œ λ§Œλ“­λ‹ˆλ‹€. κ·Έ κ²°κ³Ό, 지식 μΆ”λ‘  및 μˆ˜ν•™ κ³Όμ œμ—μ„œ μ‹€μš©μ μ΄κ³  효율적인 ν•™μŠ΅μ„ λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
SEARL은 μ œν•œλœ μžμ› ν™˜κ²½μ—μ„œλ„ 효과적인 μžκ°€ λ°œμ „ μ—μ΄μ „νŠΈ ν•™μŠ΅μ΄ κ°€λŠ₯함을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
κ΅¬μ‘°ν™”λœ κ²½ν—˜ κΈ°μ–΅κ³Ό ꢀ적 κ°„ 상관관계 ν™œμš©μ€ 보상 μ‹ ν˜Έμ˜ ν¬μ†Œμ„± 문제λ₯Ό μ™„ν™”ν•˜κ³  ν•™μŠ΅ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯을 λ‹€μ–‘ν•œ μ‹€μ œ μ‘μš© 뢄야에 μ μš©ν•˜κ³ , κΈ°μ–΅ ꡬ쑰의 동적 ν™•μž₯성을 κ°œμ„ ν•˜λŠ” 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘