haebom
Sign In
MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Qianhao Yuan, Jie Lou, Zichao Li, Jiawei Chen, Yaojie Lu, Hongyu Lin, Le Sun, Debing Zhang, Xianpei Han
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ๊ฒ์ ์์ด์ ํธ๊ฐ ๋ค์ค ํด ์ํธ์์ฉ ์ ๋ฐ์ํ๋ ๊ธด ์ ๋ ฅ๊ณผ ๋์ ์ฐ์ฐ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ MemSearcher ํ๋ ์์ํฌ๋ฅผ ์๊ฐํฉ๋๋ค. MemSearcher๋ ์ง๋ฌธ๊ณผ ๊ด๋ จ๋ ์ ๋ณด๋ง์ ์์ถ๋ ๋ฉ๋ชจ๋ฆฌ๋ก ์ ์งํ์ฌ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ์์ ์ ์ผ๋ก ๊ด๋ฆฌํ๋ฉฐ, ์ด๋ฅผ ์ํด ์ฌ๋ฌ LLM ์ปจํ ์คํธ์์ ๋ฐ์ํ๋ ๊ถค์ ์์ค์ ์ด์ ์ ๋ชจ๋ ํด์ ์ ํํ์ฌ ์ข ๋จ๊ฐ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ multi-context GRPO ๊ธฐ๋ฒ์ ๋์ ํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, MemSearcher๋ ๊ธฐ์กด์ ํ์คํ ๋ฆฌ ์ฐ๊ฒฐ ๋ฐฉ์ ๊ธฐ๋ฐ ์์ด์ ํธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ๋ค์ค ํด ์ํธ์์ฉ ์ ๋ฐ์ ๊ฑธ์ณ ๊ฑฐ์ ์ผ์ ํ ํ ํฐ ์๋ฅผ ์ ์งํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM ๊ธฐ๋ฐ ๊ฒ์ ์์ด์ ํธ์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผ ์ฐ์ฐ ๋น์ฉ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋๋ฅผ ์ ๊ฐํ ์ ์์ต๋๋ค.
โข
๋ค์ค ํด ์ํธ์์ฉ์์ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ด๋ฆฌํจ์ผ๋ก์จ LLM์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ฐฉ์งํ๊ณ ์์ ์ ์ธ ์๋์ ๋ณด์ฅํฉ๋๋ค.
โข
๋ค์ํ LLM ์ปจํ ์คํธ์์์ ํ์ต ๋ฐ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ๊ฐํ ํ์ต ๊ธฐ๋ฒ(multi-context GRPO)์ ์ ์ํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ ์์ถ๋ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ง๋ง, ๋ฉ๋ชจ๋ฆฌ ์์ถ ๊ณผ์ ์์ ์ค์ํ ์ ๋ณด์ ์์ค ๊ฐ๋ฅ์ฑ ๋๋ ํน์ ์ ํ์ ์ง๋ฌธ์ ๋ํ ๋ฉ๋ชจ๋ฆฌ ํ์ฉ ์ต์ ํ๋ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage