ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models
Created by
Haebom
Category
Empty
저자
Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu
개요
ForgeDAN은 정렬된 대규모 언어 모델(LLM)에 대한 적대적 프롬프트를 생성하기 위한 새로운 진화적 프레임워크입니다. 공격 다양성을 높이기 위해 문자, 단어 및 문장 수준에서 여러 전략의 텍스트 변동을 도입하고, 의미적으로 관련 있고 유해한 출력을 향해 진화 과정을 안내하기 위해 텍스트 유사성 모델을 기반으로 하는 해석 가능한 의미적 적합성 평가를 사용합니다. 또한, ForgeDAN은 모델 규정 준수 및 유해성 출력을 공동으로 평가하기 위해 LLM 기반 분류기를 활용하여 이중 차원 탈옥 판단을 통합하여 오탐을 줄이고 탐지 효과를 향상시킵니다. 평가 결과는 ForgeDAN이 자연스러움과 은밀성을 유지하면서 기존 SOTA 솔루션을 능가하는 높은 탈옥 성공률을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다양한 텍스트 변동 전략을 통해 공격의 다양성 증가
◦
해석 가능한 의미적 적합성 평가를 통한 진화 과정의 효율성 향상
◦
이중 차원 탈옥 판단을 통한 탐지 효과 개선 및 오탐 감소
◦
기존 SOTA 솔루션 대비 높은 탈옥 성공률 달성
•
한계점:
◦
논문에서 구체적인 한계점은 명시되지 않음. (단, 기존 연구의 한계를 극복하려는 시도로 제시)