haebom
Sign In
Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Huilin Zhou, Jian Zhao, Yilu Zhong, Zhen Liang, Xiuyuan Chen, Yuchen Yuan, Tianle Zhang, Chi Zhang, Lan Zhang, Xuelong Li
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM์ ์ทจ์ฝ์ ์ ๋ฐ๊ฒฌํ๊ธฐ ์ํ ๋ ๋ํ ์์ ์ ์๋ํํ๋ Metis๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. Metis๋ ์ ๋์ ๋ถ๋ถ ๊ด์ฐฐ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (POMDP) ๋ด์์ ์ถ๋ก ์๊ฐ ์ ์ฑ ์ต์ ํ๋ก ํ์ฅ์ ์ฌ๊ตฌ์ฑํ๋ฉฐ, ์ค์ค๋ก ์งํํ๋ ์ด์ธ์ง ๋ฃจํ๋ฅผ ์ฌ์ฉํ์ฌ ๋์ ๋ชจ๋ธ์ ๋ฐฉ์ด ๋ก์ง์ ์ธ๊ณผ์ ์ผ๋ก ์ง๋จํ๊ณ ๊ฐ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ๋นํด ๋ฐ์ด๋ ํ์ฅ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ ํ ํฐ ๋น์ฉ์ ํฌ๊ฒ ์ ๊ฐํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
Metis๋ ๋์ ์ด๊ณ ์ ์์ ์ธ ํ์ฅ ๊ณต๊ฒฉ์ ํตํด LLM์ ์์ ์ฑ ๋ฐฉ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ฌด๋ ฅํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
โข
ํฌ๋ช ํ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ Metis๋ ๊ธฐ์กด์ ์ ์ ์ด๊ณ ํ๋ฅ ๋ก ์ ์ธ ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ํด์ ๊ฐ๋ฅ์ฑ์ ๋์ ๋๋ค.
โข
ํ์ฌ์ LLM ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ์ถ๋ก ์ค์ ์์ ์ฑ์ ๋์ ์ผ๋ก ์ถ๋ก ํ ์ ์๋ ์ฐจ์ธ๋ ๋ฐฉ์ด ๊ธฐ๋ฅ์ด ํ์ํจ์ ์์ฌํฉ๋๋ค.
โข
Metis์ ํจ๊ณผ๋ ํ ์คํธ ํ๊ฒฝ์ ๊ตญํ๋ ์ ์์ผ๋ฉฐ, ์ค์ ์ด์ ํ๊ฒฝ์ ๋ค์ํ ๋ณต์ก์ฑ๊ณผ ๋์ ์ํธ ์์ฉ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage