Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Created by
  • Haebom
Category
Empty

저자

Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu

개요

ForgeDAN은 정렬된 대규모 언어 모델(LLM)에 대한 적대적 프롬프트를 생성하기 위한 새로운 진화적 프레임워크입니다. 공격 다양성을 높이기 위해 문자, 단어 및 문장 수준에서 여러 전략의 텍스트 변동을 도입하고, 의미적으로 관련 있고 유해한 출력을 향해 진화 과정을 안내하기 위해 텍스트 유사성 모델을 기반으로 하는 해석 가능한 의미적 적합성 평가를 사용합니다. 또한, ForgeDAN은 모델 규정 준수 및 유해성 출력을 공동으로 평가하기 위해 LLM 기반 분류기를 활용하여 이중 차원 탈옥 판단을 통합하여 오탐을 줄이고 탐지 효과를 향상시킵니다. 평가 결과는 ForgeDAN이 자연스러움과 은밀성을 유지하면서 기존 SOTA 솔루션을 능가하는 높은 탈옥 성공률을 달성함을 보여줍니다.

시사점, 한계점

시사점:
다양한 텍스트 변동 전략을 통해 공격의 다양성 증가
해석 가능한 의미적 적합성 평가를 통한 진화 과정의 효율성 향상
이중 차원 탈옥 판단을 통한 탐지 효과 개선 및 오탐 감소
기존 SOTA 솔루션 대비 높은 탈옥 성공률 달성
한계점:
논문에서 구체적인 한계점은 명시되지 않음. (단, 기존 연구의 한계를 극복하려는 시도로 제시)
👍