Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs

Created by
  • Haebom

저자

Advik Raj Basani, Xiao Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 안전 장치를 우회하여 유해한 응답을 유도하는, '탈옥 공격(jailbreak attacks)'에 대한 새로운 자동화된 프레임워크인 Generative Adversarial Suffix Prompter (GASP)를 제시합니다. 기존의 수동적 방법이나 최적화 기반 공격의 한계(일반화의 어려움, 비자연스러운 프롬프트 생성, 높은 계산 비용)를 극복하기 위해, GASP는 연속적인 잠재 임베딩 공간을 효율적으로 탐색하는 잠재 베이지안 최적화를 활용하여 인간이 읽을 수 있는 탈옥 프롬프트를 생성합니다. 목표 지향적인 반복적 개선 절차를 통해 프롬프트의 일관성을 유지하면서 공격 효과를 향상시킵니다. 실험 결과, GASP는 기존 방법보다 탈옥 성공률을 높이고, 훈련 시간과 추론 속도를 단축시키는 효율적이고 확장 가능한 솔루션임을 보여줍니다.

시사점, 한계점

시사점:
LLM의 안전성 평가 및 강화를 위한 효율적이고 확장 가능한 자동화된 탈옥 공격 프레임워크 제공.
기존 방법의 한계점인 낮은 일반화 성능, 비자연스러운 프롬프트 생성, 높은 계산 비용 문제 해결.
인간이 읽을 수 있는 자연스러운 탈옥 프롬프트 생성을 통해 LLM의 취약점을 효과적으로 파악 가능.
한계점:
GASP의 성능은 사용된 LLM과 안전 필터의 구체적인 구현에 따라 달라질 수 있음.
잠재 베이지안 최적화의 복잡성으로 인해, 계산 자원이 제한된 환경에서는 적용에 어려움이 있을 수 있음.
완벽한 블랙박스 환경에서의 성능을 보장할 수 없음. (LLM 내부 작동 메커니즘에 대한 어느 정도의 지식이 필요할 수 있음)
👍