haebom
Sign In
Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Xiao Li, Wei Zhang, Zhuhong Li, Qiongxiu Li, Shei PernChua, BingZe Lee, Jinghao Cui, Yifan Huang, Xiaolin Hu
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ ๋ ฌ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋์์ผ๋ก ํ๋ ์๋ํ๋ ํ์ฅ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ์ธ GCG(Greedy Coordinate Gradient)์ ๋ฎ์ ์ํ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Faster-GCG๋ฅผ ์ ์ํฉ๋๋ค. Faster-GCG๋ ๋ถ์ ํํ ๊ธฐ์ธ๊ธฐ ์ถ์ , ๋นํจ์จ์ ์ธ ์ํ๋ง, ๋ฐ๋ณต์ ์ธ ์ ๋ฏธ์ฌ ํ๊ฐ๋ฅผ ๊ฐ์ ํ์ฌ ์ํ ํจ์จ์ฑ์ ์ต๋ 8๋ฐฐ ํฅ์์ํค๊ณ ๊ณ์ฐ ์๊ฐ์ 7๋ฐฐ ๋จ์ถํ์ต๋๋ค. ์ด๋ฅผ ํตํด 5๊ฐ์ LLM์์ ํ๊ท 78.1%์ ํ์ฅ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ, Qwen3.5-4B ๋ชจ๋ธ์๋ 88.7%์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ฌ ์ต์ ํ์ดํธ๋ฐ์ค ํ์ฅ ๋ฐฉ๋ฒ๋ก ์ ๋ฅ๊ฐํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
Faster-GCG๋ ๊ธฐ์กด GCG ๊ณต๊ฒฉ์ ์ํ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ฌ ์ค์ ํ๊ฒฝ์์์ LLM ํ์ฅ ๊ณต๊ฒฉ ๊ฐ๋ฅ์ฑ์ ๋์์ต๋๋ค.
โข
์ ์๋ ๊ธฐ๋ฒ(๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ์ ๊ทํ, ์จ๋ ์ ์ด ์ํ๋ง, ๋ฐฉ๋ฌธ ์ ๋ฏธ์ฌ ํ์)์ ์ด์ฐ์ ์ธ ์ต์ ํ ๋ฌธ์ ํด๊ฒฐ์ ํจ๊ณผ์ ์ธ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ LLM์ ์์ ์ฑ์ ์ํํ๋ ํ์ฅ ๊ณต๊ฒฉ์ ๋ํ ํจ๊ณผ์ ์ธ ๋ฐฉ์ด ์ ๋ต ๊ฐ๋ฐ์ ํ์์ฑ์ ๋ค์ ํ๋ฒ ๊ฐ์กฐํฉ๋๋ค.
โข
Faster-GCG์ ์ฑ๊ณต๋ฅ ์ ์ฌ์ ํ 100%๊ฐ ์๋๋ฉฐ, ํน์ ๋ชจ๋ธ์ด๋ ๊ณต๊ฒฉ ์๋๋ฆฌ์ค์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ํฅํ ๋ ๋ค์ํ ๋ชจ๋ธ๊ณผ ๊ณต๊ฒฉ ํ๊ฒฝ์์์ ๊ฒ์ฆ ๋ฐ ๋ฐฉ์ด ๊ธฐ๋ฒ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage