Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LatentBreak: Jailbreaking Large Language Models through Latent Space Feedback

Created by
  • Haebom

저자

Raffaele Mura, Giorgio Piras, Kamile Luko\v{s}iute, Maura Pintor, Amin Karbasi, Battista Biggio

개요

본 논문은 대규모 언어 모델(LLM)의 안전 메커니즘을 우회하기 위한 적대적 공격인 Jailbreak에 대해 다룹니다. 기존 Jailbreak 공격은 높은 혼란도(perplexity)를 가지는 접미사나 긴 프롬프트 템플릿을 활용하는데, 이로 인해 입력 프롬프트에 대한 간단한 혼란도 기반 필터링으로 탐지될 수 있습니다. 이를 극복하기 위해 본 논문은 LatentBreak를 제안합니다. LatentBreak는 입력 프롬프트의 단어를 의미적으로 동등한 단어로 대체하여, 초기 의도를 유지하면서 낮은 혼란도를 갖는 자연스러운 적대적 프롬프트를 생성합니다. 이러한 단어는 적대적 프롬프트와 무해한 요청의 잠재 공간에서의 거리를 최소화하여 선택됩니다. 광범위한 평가 결과, LatentBreak는 짧고 낮은 혼란도의 프롬프트를 생성하여, 혼란도 기반 필터에 대한 경쟁 Jailbreak 알고리즘보다 뛰어난 성능을 보였습니다.

시사점, 한계점

시사점:
기존 Jailbreak 공격의 취약점(혼란도 기반 탐지에 취약)을 해결하는 새로운 Jailbreak 공격 방법론 제시.
낮은 혼란도를 유지하며 안전성 정렬 모델을 우회하는 LatentBreak 기술 제안.
자연스러운 적대적 프롬프트 생성을 통해 방어 메커니즘을 회피하는 새로운 접근 방식 제시.
한계점:
White-box 공격으로, 모델의 내부 구조에 대한 접근이 필요함.
제안된 방법의 일반화 가능성 및 다른 방어 기법에 대한 취약성 평가 필요.
잠재 공간에서의 거리 최소화가 모든 Jailbreak 시나리오에 효과적인지 추가 연구 필요.
👍