Sign In

Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Huilin Zhou, Jian Zhao, Yilu Zhong, Zhen Liang, Xiuyuan Chen, Yuchen Yuan, Tianle Zhang, Chi Zhang, Lan Zhang, Xuelong Li

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” LLM์˜ ์ทจ์•ฝ์ ์„ ๋ฐœ๊ตดํ•˜๋Š” ๋ ˆ๋“œํŒ€ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ์ถ”๋ก  ์‹œ์  ์ •์ฑ… ์ตœ์ ํ™”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” Metis ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Metis๋Š” ์ž๊ฐ€ ๋ฐœ์ „ํ•˜๋Š” ๋ฉ”ํƒ€์ธ์ง€ ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ๋ชฉํ‘œ ๋ชจ๋ธ์˜ ๋ฐฉ์–ด ๋กœ์ง์„ ์ธ๊ณผ์ ์œผ๋กœ ์ง„๋‹จํ•˜๊ณ , ๊ตฌ์กฐํ™”๋œ ํ”ผ๋“œ๋ฐฑ์„ ์ •์ฑ… ๊ฐœ์„ ์„ ์œ„ํ•œ ์˜๋ฏธ๋ก ์  ๊ธฐ์šธ๊ธฐ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋†’์€ ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ ์ •์  ์ ‘๊ทผ ๋ฐฉ์‹๋ณด๋‹ค ๋ฐœ์ „๋œ ์•ˆ์ „ ์ •๋ ฌ์— ๊ฐ•์ ์„ ๋ณด์ด๋ฉฐ, ํ† ํฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
Metis๋Š” LLM์˜ ์•ˆ์ „ ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์šฐํšŒํ•˜๋Š” "ํƒˆ์˜ฅ(jailbreak)" ๊ณต๊ฒฉ์— ์žˆ์–ด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก  ๋Œ€๋น„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ž๊ฐ€ ๋ฐœ์ „ํ•˜๋Š” ๋ฉ”ํƒ€์ธ์ง€ ๋ฃจํ”„์™€ ์˜๋ฏธ๋ก ์  ๊ธฐ์šธ๊ธฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์€ LLM ๋ฐฉ์–ด ๋กœ์ง์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ์ดํ•ด์™€ ๋™์ ์ธ ๋Œ€์‘ ๋Šฅ๋ ฅ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ์˜ LLM ๋ฐฉ์–ด ์ฒด๊ณ„๋Š” ์ถ”๋ก  ์ค‘์— ์•ˆ์ „์„ ๋™์ ์œผ๋กœ ๊ณ ๋ คํ•˜๋Š” ์ฐจ์„ธ๋Œ€ ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํ•„์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ํŠน์ • ๊ณต๊ฒฉ ๋ฐ ๋ฐฉ์–ด ์„ค์ • ์™ธ์˜ ๋‹ค๋ฅธ ํ™˜๊ฒฝ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, Metis ์ž์ฒด์˜ ์ž ์žฌ์ ์ธ ์˜ค์šฉ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ๊ณ ๋ ค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘