Sign In

Evaluation of Prompt Injection Defenses in Large Language Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Priyal Deep, Shane Emmons, Amy Fox, Kyle Bacon, Kelley McAllister, Peter Ortiz, Krisztian Flautner

๐Ÿ’ก ๊ฐœ์š”

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ๋œ ๋ฏผ๊ฐํ•œ ์ •๋ณด๊ฐ€ ๊ณต๊ฒฉ์ž์— ์˜ํ•ด ๋…ธ์ถœ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ˆ˜๋ฐฑ ๋ผ์šด๋“œ์— ๊ฑธ์ณ ์ „๋žต์„ ๋ฐœ์ „์‹œํ‚ค๋Š” ์ ์‘ํ˜• ๊ณต๊ฒฉ์ž๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ 9๊ฐ€์ง€ ๋ฐฉ์–ด ์„ค์ •์„ 20,000ํšŒ ์ด์ƒ์˜ ๊ณต๊ฒฉ์œผ๋กœ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ์ž์ฒด์— ๋ฐฉ์–ด ๊ธฐ๋Šฅ์„ ๋งก๊ธด ๋ชจ๋“  ๋ฐฉ์‹์€ ๊ฒฐ๊ตญ ์‹คํŒจํ–ˆ์œผ๋ฉฐ, ์™ธ๋ถ€์—์„œ ๊ทœ์น™ ๊ธฐ๋ฐ˜์œผ๋กœ ์‘๋‹ต์„ ๊ฒ€์ฆํ•˜๋Š” ์ถœ๋ ฅ ํ•„ํ„ฐ๋ง๋งŒ์ด 15,000ํšŒ ๊ณต๊ฒฉ ๋™์•ˆ ๋‹จ ํ•œ ๊ฑด์˜ ์ •๋ณด ์œ ์ถœ๋„ ์—†์ด ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ์ž์ฒด์˜ ๋ณด์•ˆ ๊ธฐ๋Šฅ์— ์˜์กดํ•˜๋Š” ๋ฐฉ์–ด๋Š” ๊ถ๊ทน์ ์œผ๋กœ ์ทจ์•ฝํ•˜๋ฉฐ, ์™ธ๋ถ€ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ์ฝ”๋“œ์—์„œ ๋ณด์•ˆ ๊ฒฝ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ์„ค์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์‚ฌ์šฉ์ž์—๊ฒŒ ๋„๋‹ฌํ•˜๊ธฐ ์ „์— ์‘๋‹ต์„ ๊ฒ€์ฆํ•˜๋Š” ํ•˜๋“œ์ฝ”๋”ฉ๋œ ๊ทœ์น™ ๊ธฐ๋ฐ˜์˜ ์ถœ๋ ฅ ํ•„ํ„ฐ๋ง์ด ํ˜„์žฌ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ๋ฐฉ์–ด ์ „๋žต์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
Swept AI์™€ ๊ฐ™์€ ๋„๊ตฌ๋ฅผ ํ†ตํ•ด ๊ฒ€์ฆ๋˜๊ธฐ ์ „๊นŒ์ง€๋Š” ๋ฏผ๊ฐํ•œ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” AI ์‹œ์Šคํ…œ์€ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋‚ด๋ถ€ ์ธ๋ ฅ์œผ๋กœ ์ ‘๊ทผ์„ ์ œํ•œํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ ๊ณต๊ฒฉ์ž ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ 9๊ฐ€์ง€ ๋ฐฉ์–ด ์„ค์ •์— ๊ตญํ•œ๋˜์—ˆ์œผ๋ฏ€๋กœ, ๋” ๋‹ค์–‘ํ•œ ๊ณต๊ฒฉ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘