Sign In

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, Maksym Andriushchenko

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” AI ์—์ด์ „ํŠธ๊ฐ€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์— ๋Œ€ํ•œ ์ตœ์ฒจ๋‹จ ์ ๋Œ€์  ๊ณต๊ฒฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์Šค์Šค๋กœ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. Claude Code ๋ฐ Codex์™€ ๊ฐ™์€ ์ตœ์‹  AI ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ฐ ํ‰๊ฐ€ ์Šคํฌ๋ฆฝํŠธ์™€ ๊ฒฐํ•ฉ๋œ ์ž๋™ ์—ฐ๊ตฌ ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด OpenAI์˜ GPT-OSS-Safeguard-20B์— ๋Œ€ํ•œ ํ™”์ดํŠธ๋ฐ•์Šค ํƒˆ์˜ฅ(jailbreaking) ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ 80%๊นŒ์ง€ ๋†’์ด๊ณ , Meta-SecAlign-70B ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…(prompt injection) ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ 100% ๋‹ฌ์„ฑํ•˜๋Š” ๋“ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก  ๋Œ€๋น„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
AI ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ์ž๋™ํ™”๋œ ์ ๋Œ€์  ๊ณต๊ฒฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์—ฐ๊ตฌ๋Š” LLM ๋ณด์•ˆ ๋ถ„์•ผ์—์„œ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด์˜ ์ˆ˜๋™์ ์ธ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ•๋ก  ์—ฐ๊ตฌ์— ๋น„ํ•ด AI ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ž๋™ ์—ฐ๊ตฌ๋Š” ํ›จ์”ฌ ๋” ํšจ์œจ์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ๊ณต๊ฒฉ์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ๊ฐœ๋ฐœ๋œ ๊ณต๊ฒฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๊ด€๋ จ ์—†๋Š” ์„œ๋Ÿฌ๊ฒŒ์ดํŠธ ๋ชจ๋ธ์—์„œ ํ•™์Šต๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‹ค์ œ ๋Œ€์ƒ ๋ชจ๋ธ์— ํšจ๊ณผ์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”๋œ๋‹ค๋Š” ์ ์€ LLM์˜ ์ทจ์•ฝ์„ฑ ๋ฐ ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ์งˆ๋ฌธ์„ ๋˜์ง‘๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” AI ์—์ด์ „ํŠธ๊ฐ€ ๊ฐœ๋ฐœํ•œ ๊ณต๊ฒฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํŠน์„ฑ๊ณผ ์ „๋žต์„ ๋” ๊นŠ์ด ์ดํ•ดํ•˜๊ณ , ์ด๋Ÿฌํ•œ ์ž๋™ํ™”๋œ ๊ณต๊ฒฉ์— ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐœ๋ฐœํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘