Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs

Created by
  • Haebom
Category
Empty

저자

Mohammad Akbar-Tajari, Mohammad Taher Pilehvar, Mohammad Mahmoody

개요

본 논문은 대규모 언어 모델(LLM)의 안전 메커니즘을 우회하는 적대적 공격(jailbreak)에 대한 취약성을 식별하고, 이를 통해 LLM의 강건성을 향상시키는 방법을 제안합니다. Graph of Thoughts 프레임워크를 기반으로 하는 새로운 적대적 프롬프트 생성 방법인 GoAT(Graph of ATtacks)를 제시하며, 기존 최첨단 공격보다 적은 쿼리로 효과적인 jailbreak 프롬프트를 생성하여 Llama와 같은 강력한 모델에 대해 최대 5배 높은 성공률을 달성합니다. GoAT는 목표 모델의 매개변수에 접근할 필요가 없는 블랙박스 공격이며, 트리 기반 추론에 제한되지 않고 그래프 구조 기반의 추론을 통해 다양한 공격 경로 간의 상호 작용과 정제를 가능하게 합니다. 이는 LLM의 적대적 취약성에 대한 협업적인 탐색을 크게 향상시킵니다. GoAT는 그래프 구조를 시작점으로 하여 생각들을 결합하고 개선함으로써 반복적으로 그래프를 개선합니다. 구현 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
기존 방법보다 효율적이고 성공률이 높은 LLM 적대적 공격 방법 제시
블랙박스 공격으로 모델 매개변수 접근 없이 공격 가능
그래프 기반 추론을 통해 더욱 정교하고 효과적인 공격 생성
LLM의 안전성 향상을 위한 취약점 분석에 기여
한계점:
GoAT의 성능은 사용된 그래프 구조와 알고리즘의 설계에 크게 의존하며, 최적의 구조를 찾는 것이 어려울 수 있음.
새로운 방어 메커니즘이 등장할 경우 GoAT의 효과가 감소할 가능성이 있음.
실제 세계의 다양한 LLM과 적대적 공격 시나리오에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
👍