Sign In

MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

Created by
  • Haebom
Category
Empty

์ €์ž

Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson, Cristina Nita-Rotaru, Alina Oprea

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์›น ์—์ด์ „ํŠธ๊ฐ€ ๋น„์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์›น ์ฝ˜ํ…์ธ ์— ํฌํ•จ๋œ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์— ์ทจ์•ฝํ•˜๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด MUZZLE์ด๋ผ๋Š” ์ž๋™ํ™”๋œ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. MUZZLE์€ ์—์ด์ „ํŠธ์˜ ์‹คํ–‰ ๊ถค์ ์„ ํ™œ์šฉํ•˜์—ฌ ์ž๋™์œผ๋กœ ๊ณต๊ฒฉ ํ‘œ๋ฉด์„ ์‹๋ณ„ํ•˜๊ณ , ์—์ด์ „ํŠธ์˜ ํ–‰๋™์„ ์กฐ์ข…ํ•˜์—ฌ ๊ธฐ๋ฐ€์„ฑ, ๋ฌด๊ฒฐ์„ฑ, ๊ฐ€์šฉ์„ฑ์„ ์นจํ•ดํ•˜๋Š” ์ ์‘ํ˜• ๊ณต๊ฒฉ์„ ์ƒ์„ฑํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„์˜ ๊ฐœ์ž…์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ์›น ์—์ด์ „ํŠธ์˜ ๋ณด์•ˆ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด์˜ ๊ณ ์ •๋œ ๊ณต๊ฒฉ ํ…œํ”Œ๋ฆฟ์ด๋‚˜ ์ˆ˜๋™์ ์ธ ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์ ์‘์ ์ด๊ณ  ๋ณต์žกํ•œ ๊ณต๊ฒฉ์„ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
โ€ข
MUZZLE์€ ์—์ด์ „ํŠธ์˜ ์‹คํ–‰ ๊ถค์ ์— ๊ธฐ๋ฐ˜ํ•œ ์ ์‘ํ˜• ๊ณต๊ฒฉ ์ƒ์„ฑ ๋ฐ ๋ฐ˜๋ณต์ ์ธ ๊ณต๊ฒฉ ์ •์ œ ๊ณผ์ •์„ ํ†ตํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ๋Š” ๋ฐœ๊ฒฌํ•˜๊ธฐ ์–ด๋ ค์šด ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ๋ฒกํ„ฐ(์˜ˆ: ๊ต์ฐจ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ณต๊ฒฉ, ๋งž์ถคํ˜• ํ”ผ์‹ฑ ์‹œ๋‚˜๋ฆฌ์˜ค)๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๋ฐœ๊ฒฌํ•œ๋‹ค.
โ€ข
ํ˜„์žฌ MUZZLE์˜ ๊ณต๊ฒฉ ๋ฒ”์œ„๋Š” ๊ธฐ๋ฐ€์„ฑ, ๊ฐ€์šฉ์„ฑ, ํ”„๋ผ์ด๋ฒ„์‹œ ์นจํ•ด์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ํ–ฅํ›„์—๋Š” ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๋ณด์•ˆ ์†์„ฑ(์˜ˆ: ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ, ์œค๋ฆฌ์  ํ–‰๋™)์— ๋Œ€ํ•œ ๊ณต๊ฒฉ ํƒ์ง€๋กœ ํ™•์žฅ๋  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.
๐Ÿ‘