haebom
Sign In
Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, Maksym Andriushchenko
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ AI ์์ด์ ํธ๊ฐ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ํ ์ต์ฒจ๋จ ์ ๋์ ๊ณต๊ฒฉ ์๊ณ ๋ฆฌ์ฆ์ ์ค์ค๋ก ๋ฐ๊ฒฌํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. Claude Code ๋ฐ Codex์ ๊ฐ์ ์ต์ AI ์์ด์ ํธ๋ฅผ ํ์ฉํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฐ ํ๊ฐ ์คํฌ๋ฆฝํธ์ ๊ฒฐํฉ๋ ์๋ ์ฐ๊ตฌ ๋ฃจํ๋ฅผ ํตํด ์๋ก์ด ๊ณต๊ฒฉ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด OpenAI์ GPT-OSS-Safeguard-20B์ ๋ํ ํ์ดํธ๋ฐ์ค ํ์ฅ(jailbreaking) ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ 80%๊น์ง ๋์ด๊ณ , Meta-SecAlign-70B ๋ชจ๋ธ์ ๋ํ ํ๋กฌํํธ ์ฃผ์ (prompt injection) ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ 100% ๋ฌ์ฑํ๋ ๋ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
AI ์์ด์ ํธ๋ฅผ ํ์ฉํ ์๋ํ๋ ์ ๋์ ๊ณต๊ฒฉ ์๊ณ ๋ฆฌ์ฆ ์ฐ๊ตฌ๋ LLM ๋ณด์ ๋ถ์ผ์์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
โข
๊ธฐ์กด์ ์๋์ ์ธ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ก ์ฐ๊ตฌ์ ๋นํด AI ์์ด์ ํธ ๊ธฐ๋ฐ ์๋ ์ฐ๊ตฌ๋ ํจ์ฌ ๋ ํจ์จ์ ์ด๊ณ ๊ฐ๋ ฅํ ๊ณต๊ฒฉ์ ๋ฐ๊ฒฌํ ์ ์์ต๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ์์ ๊ฐ๋ฐ๋ ๊ณต๊ฒฉ ์๊ณ ๋ฆฌ์ฆ์ด ๊ด๋ จ ์๋ ์๋ฌ๊ฒ์ดํธ ๋ชจ๋ธ์์ ํ์ต๋์์์๋ ๋ถ๊ตฌํ๊ณ ์ค์ ๋์ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ๋๋ค๋ ์ ์ LLM์ ์ทจ์ฝ์ฑ ๋ฐ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ๋์ง๋๋ค.
โข
ํฅํ ์ฐ๊ตฌ์์๋ AI ์์ด์ ํธ๊ฐ ๊ฐ๋ฐํ ๊ณต๊ฒฉ ์๊ณ ๋ฆฌ์ฆ์ ํน์ฑ๊ณผ ์ ๋ต์ ๋ ๊น์ด ์ดํดํ๊ณ , ์ด๋ฌํ ์๋ํ๋ ๊ณต๊ฒฉ์ ํจ๊ณผ์ ์ผ๋ก ๋์ํ ์ ์๋ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ๊ฐ๋ฐํด์ผ ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage