본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment) 방어 메커니즘을 우회하는 새로운 공격 프레임워크인 QueryAttack을 제안한다. LLM을 지식 데이터베이스로 취급하여 자연어로 된 악의적인 질의를 구조화된 비자연어 질의 언어로 변환함으로써 안전 정렬 메커니즘을 우회한다. 주요 LLM에 대한 광범위한 실험을 통해 QueryAttack이 높은 공격 성공률(ASR)을 달성할 뿐만 아니라 다양한 방어 메커니즘을 우회할 수 있음을 보여준다. 또한, QueryAttack에 대한 방어 메커니즘을 제시하며, GPT-4-1106에서 ASR을 최대 64%까지 줄일 수 있음을 보인다. 소스 코드는 깃허브에 공개되어 있다.