Sign In

MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents

Created by
  • Haebom
Category
Empty

์ €์ž

Ishrith Gowda (University of California, Berkeley)

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์—์ด์ „ํŠธ(retrieval-augmented agents)์˜ ์ง€์†์ ์ธ ์™ธ๋ถ€ ๋ฉ”๋ชจ๋ฆฌ์— ๋Œ€ํ•œ ๋ฉ”๋ชจ๋ฆฌ ์ค‘๋… ๊ณต๊ฒฉ(memory poisoning attacks)์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๊ณ , ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ 4๋ฐฐ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ํ‰๊ฐ€ ์˜ค๋ฅ˜๋ฅผ ๋ฐ”๋กœ์žก์•˜์œผ๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ 'MEMSAD'๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์–ด ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MEMSAD๋Š” ์ธ์ฝ”๋” ์ •๊ทœ์„ฑ ํ•˜์—์„œ ์ด์ƒ์  ์ ์ˆ˜ ๊ธฐ์šธ๊ธฐ์™€ ๊ฒ€์ƒ‰ ๋ชฉํ‘œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋™์ผํ•˜๋‹ค๋Š” '๊ธฐ์šธ๊ธฐ ๊ฒฐํ•ฉ ์ •๋ฆฌ'๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ํƒ์ง€ ์œ„ํ—˜์„ ์ค„์ด๋Š” ๋ชจ๋“  ์—ฐ์†์  ๊ต๋ž€์ด ๊ฒ€์ƒ‰ ์ˆœ์œ„๋ฅผ ์ €ํ•˜์‹œํ‚ค๋„๋ก ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ •๋ฐ€ํ•œ ๊ณต๊ฒฉ ํ‰๊ฐ€ ๋ฐ ๋ฐฉ์–ด ๊ธฐ๋ฒ• ๊ฐœ๋ฐœ: ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ์˜ค๋ฅ˜๋ฅผ ๋ฐ”๋กœ์žก๊ณ , ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ๊ฐ–์ถ˜ 'MEMSAD' ๋ฐฉ์–ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ์ค‘๋… ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ํšจ๊ณผ์ ์ธ ํƒ์ง€ ๋ฐ ๋ฐฉ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ด๋ก ์  ๋ณด์ฆ์„ ํ†ตํ•œ ๊ฐ•๋ ฅํ•œ ๋ฐฉ์–ด: ๊ธฐ์šธ๊ธฐ ๊ฒฐํ•ฉ ์ •๋ฆฌ๋ฅผ ํ†ตํ•ด ํƒ์ง€ ๋ฐ˜๊ฒฝ์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ณด์ฆ์„ ์ œ๊ณตํ•˜๋ฉฐ, ๋ฏธ๋‹ˆ๋งฅ์Šค ์ตœ์ ์„ฑ์„ ์ฆ๋ช…ํ•˜์—ฌ ๊ธฐ์กด ํƒ์ง€๊ธฐ ๋Œ€๋น„ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์—ฐ์† ๊ณต๊ฐ„ ๋ฐฉ์–ด์˜ ํ•œ๊ณ„์  ๋ฐœ๊ฒฌ: ์ด์‚ฐ์ ์ธ ๋™์˜์–ด ์น˜ํ™˜ ๊ณต๊ฒฉ์€ ์—ฐ์† ๊ณต๊ฐ„ ๊ธฐ๋ฐ˜์˜ ๋ฐฉ์–ด ๊ธฐ๋ฒ•์œผ๋กœ๋Š” ํƒ์ง€๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•œ '๋™์˜์–ด ๋ถˆ๋ณ€์„ฑ ํ—ˆ์ '์„ ๋ฐœ๊ฒฌํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.
๐Ÿ‘