haebom
Sign In
Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Huilin Zhou, Jian Zhao, Yilu Zhong, Zhen Liang, Xiuyuan Chen, Yuchen Yuan, Tianle Zhang, Chi Zhang, Lan Zhang, Xuelong Li
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ LLM์ ์ทจ์ฝ์ ์ ๋ฐ๊ตดํ๋ ๋ ๋ํ ์์ ์ ์๋ํํ๊ธฐ ์ํด, ์ถ๋ก ์์ ์ ์ฑ ์ต์ ํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ Metis ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. Metis๋ ์๊ฐ ๋ฐ์ ํ๋ ๋ฉํ์ธ์ง ๋ฃจํ๋ฅผ ํตํด ๋ชฉํ ๋ชจ๋ธ์ ๋ฐฉ์ด ๋ก์ง์ ์ธ๊ณผ์ ์ผ๋ก ์ง๋จํ๊ณ , ๊ตฌ์กฐํ๋ ํผ๋๋ฐฑ์ ์ ์ฑ ๊ฐ์ ์ ์ํ ์๋ฏธ๋ก ์ ๊ธฐ์ธ๊ธฐ๋ก ํ์ฉํ์ฌ ๋์ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค. ์ด๋ ๊ธฐ์กด์ ์ ์ ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ๋ฐ์ ๋ ์์ ์ ๋ ฌ์ ๊ฐ์ ์ ๋ณด์ด๋ฉฐ, ํ ํฐ ๋น์ฉ์ ํฌ๊ฒ ์ ๊ฐํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
Metis๋ LLM์ ์์ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ ์ฐํํ๋ "ํ์ฅ(jailbreak)" ๊ณต๊ฒฉ์ ์์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
โข
์๊ฐ ๋ฐ์ ํ๋ ๋ฉํ์ธ์ง ๋ฃจํ์ ์๋ฏธ๋ก ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ LLM ๋ฐฉ์ด ๋ก์ง์ ๋ํ ๋ ๊น์ ์ดํด์ ๋์ ์ธ ๋์ ๋ฅ๋ ฅ์ ์์ฌํฉ๋๋ค.
โข
ํ์ฌ์ LLM ๋ฐฉ์ด ์ฒด๊ณ๋ ์ถ๋ก ์ค์ ์์ ์ ๋์ ์ผ๋ก ๊ณ ๋ คํ๋ ์ฐจ์ธ๋ ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ์ด ํ์ํจ์ ๋ณด์ฌ์ค๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ํน์ ๊ณต๊ฒฉ ๋ฐ ๋ฐฉ์ด ์ค์ ์ธ์ ๋ค๋ฅธ ํ๊ฒฝ์์๋ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์ผ๋ฉฐ, Metis ์์ฒด์ ์ ์ฌ์ ์ธ ์ค์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ๊ณ ๋ ค๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage