Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

작성자

Haebom

카테고리

Empty

저자

Huilin Zhou, Jian Zhao, Yilu Zhong, Zhen Liang, Xiuyuan Chen, Yuchen Yuan, Tianle Zhang, Chi Zhang, Lan Zhang, Xuelong Li

💡 개요

본 논문은 LLM의 취약점을 발견하기 위한 레드팀 작업을 자동화하는 Metis라는 새로운 프레임워크를 제안합니다. Metis는 적대적 부분 관찰 마르코프 결정 과정(POMDP) 내에서 추론 시간 정책 최적화로 탈옥을 재구성하며, 스스로 진화하는 초인지 루프를 사용하여 대상 모델의 방어 로직을 인과적으로 진단하고 개선합니다. 이를 통해 기존 방법론에 비해 뛰어난 탈옥 성공률을 달성하고 토큰 비용을 크게 절감했습니다.

🔑 시사점 및 한계

•

Metis는 동적이고 적응적인 탈옥 공격을 통해 LLM의 안전성 방어를 효과적으로 무력화할 수 있음을 입증했습니다.

•

투명한 추론 경로를 제공함으로써 Metis는 기존의 정적이고 확률론적인 접근 방식보다 해석 가능성을 높입니다.

•

현재의 LLM 방어 메커니즘은 추론 중에 안전성을 동적으로 추론할 수 있는 차세대 방어 기능이 필요함을 시사합니다.

•

Metis의 효과는 테스트 환경에 국한될 수 있으며, 실제 운영 환경의 다양한 복잡성과 동적 상호 작용에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage