From Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors
Created by
Haebom
저자
Yu Yan, Sheng Sun, Zenghao Duan, Teli Liu, Min Liu, Zhiyi Yin, Jiangyu Lei, Qi Li
개요
본 논문은 대규모 언어 모델(LLM)의 악의적 콘텐츠 생성 위험, 특히 '탈옥 공격(jailbreak attack)'에 대한 기존 연구의 한계를 지적하며 새로운 공격 프레임워크인 AVATAR(AdVersArial meTAphoR)를 제시합니다. AVATAR는 무해하지만 논리적으로 관련된 은유를 초기 시드로 활용하여 LLM이 악의적인 은유를 생성하도록 유도합니다. LLM은 이러한 은유를 바탕으로 추론하고, 직접적으로 유해한 응답을 생성하거나 은유와 전문적인 유해 콘텐츠 간의 차이를 조정함으로써 탈옥됩니다. 실험 결과, AVATAR는 여러 고급 LLM에서 최첨단 공격 성공률을 달성하며 효과적이고 전이 가능한 탈옥 공격임을 보여줍니다.