Sign In

Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Debeshee Das, Julien Piet, Darya Kaviani, Luca Beurer-Kellner, Florian Tramer, David Wagner

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ์˜ ์žฅ๊ธฐ ๊ธฐ์–ต ์‹œ์Šคํ…œ์„ ์•…์šฉํ•˜์—ฌ ๋ฏผ๊ฐํ•œ ๊ฐœ์ธ ์ •๋ณด๋ฅผ ํƒˆ์ทจํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ๊ธฐ๋ฒ•์ธ "ํŠธ๋กœ์ด ๋ชฉ๋งˆ ํ•˜๋งˆ(Trojan Hippo)"๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณต๊ฒฉ์€ ๋‹จ ํ•œ ๋ฒˆ์˜ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๋Š” ๋„๊ตฌ ํ˜ธ์ถœ์„ ํ†ตํ•ด ์•…์„ฑ ํŽ˜์ด๋กœ๋“œ๋ฅผ ์ž ์žฌ์šฐ๊ณ , ์‚ฌ์šฉ์ž๊ฐ€ ๊ธˆ์œต, ๊ฑด๊ฐ• ๋“ฑ ๋ฏผ๊ฐํ•œ ์ฃผ์ œ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ๋งŒ ํ™œ์„ฑํ™”๋˜์–ด ์ •๋ณด๋ฅผ ๋นผ๋Œ๋ฆฝ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ƒˆ๋กœ์šด ์œ„ํ˜‘ ๋ชจ๋ธ ์ œ์‹œ: ๊ธฐ์กด ์—ฐ๊ตฌ๋ณด๋‹ค ํ˜„์‹ค์ ์ธ ์œ„ํ˜‘ ๋ชจ๋ธ์—์„œ ์ž‘๋™ํ•˜๋Š” ์˜๊ตฌ ๊ธฐ์–ต ๊ณต๊ฒฉ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํšจ๊ณผ์ ์ธ ๊ณต๊ฒฉ ์‹œ์—ฐ: ๋„ค ๊ฐ€์ง€ ๋‹ค๋ฅธ ๋ฉ”๋ชจ๋ฆฌ ๋ฐฑ์—”๋“œ์—์„œ ํŠธ๋กœ์ด ๋ชฉ๋งˆ ํ•˜๋งˆ ๊ณต๊ฒฉ์ด OpenAI ๋ฐ Google์˜ ์ตœ์‹  ๋ชจ๋ธ์„ ๋Œ€์ƒ์œผ๋กœ 85-100%์˜ ๋†’์€ ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ (ASR)์„ ๋‹ฌ์„ฑํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ฐฉ์–ด ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ ๋ฐ ํ•œ๊ณ„: ๊ธฐ๋ณธ์ ์ธ ๋ณด์•ˆ ์›๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋„ค ๊ฐ€์ง€ ๋ฐฉ์–ด ๊ธฐ๋ฒ•์ด ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ ํ˜„์ €ํžˆ ๋‚ฎ์ถ”์ง€๋งŒ, ์ž‘์—… ์š”๊ตฌ ์‚ฌํ•ญ์— ๋”ฐ๋ผ ์œ ํ‹ธ๋ฆฌํ‹ฐ ๋น„์šฉ์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์ ธ ์‹ค์งˆ์ ์ธ ๋ฐฐํฌ์— ์–ด๋ ค์›€์ด ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๐Ÿ‘