Sign In

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Qianhao Yuan, Jie Lou, Zichao Li, Jiawei Chen, Yaojie Lu, Hongyu Lin, Le Sun, Debing Zhang, Xianpei Han

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค์ค‘ ํ„ด ์ƒํ˜ธ์ž‘์šฉ ์‹œ ๋ฐœ์ƒํ•˜๋Š” ๊ธด ์ž…๋ ฅ๊ณผ ๋†’์€ ์—ฐ์‚ฐ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ MemSearcher ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. MemSearcher๋Š” ์งˆ๋ฌธ๊ณผ ๊ด€๋ จ๋œ ์ •๋ณด๋งŒ์„ ์••์ถ•๋œ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์œ ์ง€ํ•˜์—ฌ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๋ฉฐ, ์ด๋ฅผ ์œ„ํ•ด ์—ฌ๋Ÿฌ LLM ์ปจํ…์ŠคํŠธ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ถค์  ์ˆ˜์ค€์˜ ์ด์ ์„ ๋ชจ๋“  ํ„ด์— ์ „ํŒŒํ•˜์—ฌ ์ข…๋‹จ๊ฐ„ ์ตœ์ ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” multi-context GRPO ๊ธฐ๋ฒ•์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, MemSearcher๋Š” ๊ธฐ์กด์˜ ํžˆ์Šคํ† ๋ฆฌ ์—ฐ๊ฒฐ ๋ฐฉ์‹ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ ๋‹ค์ค‘ ํ„ด ์ƒํ˜ธ์ž‘์šฉ ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ฑฐ์˜ ์ผ์ •ํ•œ ํ† ํฐ ์ˆ˜๋ฅผ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผœ ์—ฐ์‚ฐ ๋น„์šฉ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋‹ค์ค‘ ํ„ด ์ƒํ˜ธ์ž‘์šฉ์—์„œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ด€๋ฆฌํ•จ์œผ๋กœ์จ LLM์˜ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ  ์•ˆ์ •์ ์ธ ์ž‘๋™์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ LLM ์ปจํ…์ŠคํŠธ์—์„œ์˜ ํ•™์Šต ๋ฐ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๊ฐ•ํ™” ํ•™์Šต ๊ธฐ๋ฒ•(multi-context GRPO)์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ์••์ถ•๋œ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์ง€๋งŒ, ๋ฉ”๋ชจ๋ฆฌ ์••์ถ• ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด์˜ ์†์‹ค ๊ฐ€๋Šฅ์„ฑ ๋˜๋Š” ํŠน์ • ์œ ํ˜•์˜ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋ฉ”๋ชจ๋ฆฌ ํ™œ์šฉ ์ตœ์ ํ™”๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋‚จ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘