본 논문은 대규모 언어 모델(LLM)의 안전 메커니즘을 우회하는 적대적 공격(jailbreak)에 대한 취약성을 식별하고, 이를 통해 LLM의 강건성을 향상시키는 방법을 제안합니다. Graph of Thoughts 프레임워크를 기반으로 하는 새로운 적대적 프롬프트 생성 방법인 GoAT(Graph of ATtacks)를 제시하며, 기존 최첨단 공격보다 적은 쿼리로 효과적인 jailbreak 프롬프트를 생성하여 Llama와 같은 강력한 모델에 대해 최대 5배 높은 성공률을 달성합니다. GoAT는 목표 모델의 매개변수에 접근할 필요가 없는 블랙박스 공격이며, 트리 기반 추론에 제한되지 않고 그래프 구조 기반의 추론을 통해 다양한 공격 경로 간의 상호 작용과 정제를 가능하게 합니다. 이는 LLM의 적대적 취약성에 대한 협업적인 탐색을 크게 향상시킵니다. GoAT는 그래프 구조를 시작점으로 하여 생각들을 결합하고 개선함으로써 반복적으로 그래프를 개선합니다. 구현 코드는 GitHub에서 공개됩니다.