Sign In

Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers

Created by
  • Haebom
Category
Empty

์ €์ž

Haochuan Kevin Wang, Zechen Zhang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ LLM ์‹œ์Šคํ…œ์˜ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ์ทจ์•ฝ์„ฑ์„ ๋‹จ์ผ ์ด์ง„ ๊ฒฐ๊ณผ(์„ฑ๊ณต/์‹คํŒจ)๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๊ณ , ๊ณต๊ฒฉ์ด ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋„ค ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๋ฉฐ ์ถ”์ ๋˜๋Š” 'ํ‚ฌ ์ฒด์ธ ์นด๋‚˜๋ฆฌ' ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ LLM, ๊ณต๊ฒฉ ํ‘œ๋ฉด, ๋ฐฉ์–ด ์กฐ๊ฑด์—์„œ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์˜ ๋‹จ๊ณ„๋ณ„ ์„ฑ๊ณต๋ฅ ์„ ๋ถ„์„ํ•˜์—ฌ, ๊ณต๊ฒฉ์ด ํŒŒ์ดํ”„๋ผ์ธ ์•„ํ‚คํ…์ฒ˜์˜ ๋ฌธ์ œ์ž„์„ ์žฌ์กฐ๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์“ฐ๊ธฐ ๋…ธ๋“œ(write-node) ๋ฐฐ์น˜ ์ตœ์ ํ™”: ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ์„ ์ฐจ๋‹จํ•˜๋Š” ๋ฐ ์žˆ์–ด ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ์•ˆ์ „ ๊ฒฐ์ •์€ ์“ฐ๊ธฐ ๋…ธ๋“œ๋ฅผ ์–ด๋–ป๊ฒŒ ๋ฐฐ์น˜ํ•˜๋А๋ƒ์ž…๋‹ˆ๋‹ค. ๊ฒ€์ฆ๋œ ๋ชจ๋ธ์„ ํ†ตํ•ด ์“ฐ๊ธฐ๋ฅผ ๋ผ์šฐํŒ…ํ•˜๋ฉด ๊ณต๊ฒฉ์ด ์ „ํŒŒ๋˜๋Š” ๊ฒƒ์„ ํšจ๊ณผ์ ์œผ๋กœ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ฐฉ์–ด ์‹คํŒจ์˜ ๊ทผ๋ณธ ์›์ธ: ๋„ค ๊ฐ€์ง€ ๋ฐฉ์–ด ๊ธฐ๋ฒ• ๋ชจ๋‘ ์ตœ์†Œํ•œ ํ•˜๋‚˜์˜ ๊ณต๊ฒฉ ํ‘œ๋ฉด์—์„œ ์ฑ„๋„ ๋ถˆ์ผ์น˜๋งŒ์œผ๋กœ๋„ ์‹คํŒจํ•˜๋ฉฐ, ์ด๋Š” ์ ๋Œ€์  ์ ์‘ ์—†์ด๋„ ๋ฐœ์ƒํ•˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.
โ€ข
๋ Œ๋”๋ง ๊ณ„์ธต ์Šคํฌ๋ฆฌ๋‹์˜ ๋ถˆ์ถฉ๋ถ„ํ•จ: ๋ˆˆ์— ๋ณด์ด์ง€ ์•Š๋Š” ํฐ์ƒ‰ ๊ธ€๊ผด PDF ํŽ˜์ด๋กœ๋“œ๊ฐ€ ๊ฐ€์‹œ์ ์ธ ํ…์ŠคํŠธ ํŽ˜์ด๋กœ๋“œ์™€ ๋™์ผํ•˜๊ฑฐ๋‚˜ ๊ทธ ์ด์ƒ์˜ ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฏ€๋กœ, ๋ Œ๋”๋ง ๊ณ„์ธต๋งŒ์œผ๋กœ๋Š” ํšจ๊ณผ์ ์ธ ์ฐจ๋‹จ์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์  ๋˜๋Š” ํ–ฅํ›„ ๊ณผ์ œ: ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์–‘ํ•œ LLM๊ณผ ๊ณต๊ฒฉ ํ‘œ๋ฉด์— ๋Œ€ํ•œ ๋‹จ๊ณ„๋ณ„ ์ถ”์ ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ณต์žกํ•˜๊ณ  ์ง„ํ™”ํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ๊ณต๊ฒฉ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ๋ฐฉ์–ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๋” ๋งŽ์€ ๋ฐฉ์–ด ๊ธฐ๋ฒ•๊ณผ ๊ณต๊ฒฉ ํ‘œ๋ฉด์— ๋Œ€ํ•œ ์‹ฌ์ธต์ ์ธ ๋ถ„์„ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘