haebom
Sign In
MemPO: Self-Memory Policy Optimization for Long-Horizon Agents
Created by
Haebom
Category
Empty
์ ์
Ruoran Li, Xinghua Zhang, Haiyang Yu, Shitong Duan, Xiang Li, Wenxin Xiang, Chonghua Liao, Xudong Guo, Yongbin Li, Jinli Suo
๐ก ๊ฐ์
์ฅ๊ธฐ์ ํ๊ฒฝ ์ํธ์์ฉ์์ ๋ฐ์ํ๋ ์ปจํ ์คํธ ํฌ๊ธฐ ์ฆ๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ ์ธ๋ถ ๋ฉ๋ชจ๋ฆฌ ๋ชจ๋์ ์์กดํ๋ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ MemPO ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค. MemPO๋ ์์ด์ ํธ(์ ์ฑ ๋ชจ๋ธ)๊ฐ ์์ฒด์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์์ฝํ๊ณ ๊ด๋ฆฌํ๋๋ก ํจ์ผ๋ก์จ, ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๊ฐ์ ํ๊ณ ํ์คํฌ ์ํ ๋ฅ๋ ฅ์ ์ ์งํ๋ค. ์ด๋ฅผ ํตํด ํ ํฐ ์ฌ์ฉ๋์ ๋ํญ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์์ด์ ํธ๊ฐ ์ค์ค๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ด๋ฆฌํ๊ณ ์ต์ ํํจ์ผ๋ก์จ ์ฅ๊ธฐ์ ์ํธ์์ฉ์์์ ์ฑ๋ฅ ๋ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์์์ ์ ์ฆํ๋ค.
โข
๋ฉ๋ชจ๋ฆฌ ํจ๊ณผ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ ์ฉ ํ ๋น ๊ฐ์ ์ ์ค์ํ ์ ๋ณด๋ฅผ ์ ํ์ ์ผ๋ก ๋ณด์กดํ๊ณ ๋ถํ์ํ ์ ๋ณด ์ฒ๋ฆฌ๋ฅผ ์ค์ด๋ ๋ฐ ํจ๊ณผ์ ์ด๋ค.
โข
์ ์๋ MemPO๋ ์๋นํ ์ฑ๋ฅ ํฅ์๊ณผ ํจ๊ป ํ ํฐ ์ฌ์ฉ๋์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์์ํค๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ค์ํ ํ๊ฒฝ์์์ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํ๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage