haebom
Sign In
MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks
Created by
Haebom
Category
Empty
์ ์
Georgios Syros, Evan Rose, Brian Grinstead, Christoph Kerschbaumer, William Robertson, Cristina Nita-Rotaru, Alina Oprea
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์น ์์ด์ ํธ๊ฐ ๋น์ ๋ขฐํ ์ ์๋ ์น ์ฝํ ์ธ ์ ํฌํจ๋ ๊ฐ์ ํ๋กฌํํธ ์ฃผ์ ๊ณต๊ฒฉ์ ์ทจ์ฝํ๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด MUZZLE์ด๋ผ๋ ์๋ํ๋ ์์ด์ ํธ ๊ธฐ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. MUZZLE์ ์์ด์ ํธ์ ์คํ ๊ถค์ ์ ํ์ฉํ์ฌ ์๋์ผ๋ก ๊ณต๊ฒฉ ํ๋ฉด์ ์๋ณํ๊ณ , ์์ด์ ํธ์ ํ๋์ ์กฐ์ข ํ์ฌ ๊ธฐ๋ฐ์ฑ, ๋ฌด๊ฒฐ์ฑ, ๊ฐ์ฉ์ฑ์ ์นจํดํ๋ ์ ์ํ ๊ณต๊ฒฉ์ ์์ฑํ๋ค. ์ด๋ฅผ ํตํด ์ธ๊ฐ์ ๊ฐ์ ์ ์ต์ํํ๋ฉด์ ์น ์์ด์ ํธ์ ๋ณด์์ ํจ๊ณผ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ธฐ์กด์ ๊ณ ์ ๋ ๊ณต๊ฒฉ ํ ํ๋ฆฟ์ด๋ ์๋์ ์ธ ํ๊ฐ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์ค์ ํ๊ฒฝ์์ ๋ฐ์ํ ์ ์๋ ์ ์์ ์ด๊ณ ๋ณต์กํ ๊ณต๊ฒฉ์ ํ์งํ ์ ์๋ ์๋ํ๋ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
โข
MUZZLE์ ์์ด์ ํธ์ ์คํ ๊ถค์ ์ ๊ธฐ๋ฐํ ์ ์ํ ๊ณต๊ฒฉ ์์ฑ ๋ฐ ๋ฐ๋ณต์ ์ธ ๊ณต๊ฒฉ ์ ์ ๊ณผ์ ์ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ผ๋ก๋ ๋ฐ๊ฒฌํ๊ธฐ ์ด๋ ค์ด ์๋ก์ด ๊ณต๊ฒฉ ๋ฒกํฐ(์: ๊ต์ฐจ ์ ํ๋ฆฌ์ผ์ด์ ๊ณต๊ฒฉ, ๋ง์ถคํ ํผ์ฑ ์๋๋ฆฌ์ค)๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ฐ๊ฒฌํ๋ค.
โข
ํ์ฌ MUZZLE์ ๊ณต๊ฒฉ ๋ฒ์๋ ๊ธฐ๋ฐ์ฑ, ๊ฐ์ฉ์ฑ, ํ๋ผ์ด๋ฒ์ ์นจํด์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ํฅํ์๋ ๋ ๊ด๋ฒ์ํ ๋ณด์ ์์ฑ(์: ์์ด์ ํธ์ ์ ๋ขฐ์ฑ, ์ค๋ฆฌ์ ํ๋)์ ๋ํ ๊ณต๊ฒฉ ํ์ง๋ก ํ์ฅ๋ ํ์๊ฐ ์๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage