Sign In

Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Huilin Zhou, Jian Zhao, Yilu Zhong, Zhen Liang, Xiuyuan Chen, Yuchen Yuan, Tianle Zhang, Chi Zhang, Lan Zhang, Xuelong Li

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ์ทจ์•ฝ์ ์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์œ„ํ•œ ๋ ˆ๋“œํŒ€ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” Metis๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Metis๋Š” ์ ๋Œ€์  ๋ถ€๋ถ„ ๊ด€์ฐฐ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(POMDP) ๋‚ด์—์„œ ์ถ”๋ก  ์‹œ๊ฐ„ ์ •์ฑ… ์ตœ์ ํ™”๋กœ ํƒˆ์˜ฅ์„ ์žฌ๊ตฌ์„ฑํ•˜๋ฉฐ, ์Šค์Šค๋กœ ์ง„ํ™”ํ•˜๋Š” ์ดˆ์ธ์ง€ ๋ฃจํ”„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€์ƒ ๋ชจ๋ธ์˜ ๋ฐฉ์–ด ๋กœ์ง์„ ์ธ๊ณผ์ ์œผ๋กœ ์ง„๋‹จํ•˜๊ณ  ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์— ๋น„ํ•ด ๋›ฐ์–ด๋‚œ ํƒˆ์˜ฅ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๊ณ  ํ† ํฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
Metis๋Š” ๋™์ ์ด๊ณ  ์ ์‘์ ์ธ ํƒˆ์˜ฅ ๊ณต๊ฒฉ์„ ํ†ตํ•ด LLM์˜ ์•ˆ์ „์„ฑ ๋ฐฉ์–ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ฌด๋ ฅํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํˆฌ๋ช…ํ•œ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ Metis๋Š” ๊ธฐ์กด์˜ ์ •์ ์ด๊ณ  ํ™•๋ฅ ๋ก ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹๋ณด๋‹ค ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ์˜ LLM ๋ฐฉ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ถ”๋ก  ์ค‘์— ์•ˆ์ „์„ฑ์„ ๋™์ ์œผ๋กœ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” ์ฐจ์„ธ๋Œ€ ๋ฐฉ์–ด ๊ธฐ๋Šฅ์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
Metis์˜ ํšจ๊ณผ๋Š” ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์— ๊ตญํ•œ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์˜ ๋‹ค์–‘ํ•œ ๋ณต์žก์„ฑ๊ณผ ๋™์  ์ƒํ˜ธ ์ž‘์šฉ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘