본 논문은 대규모 언어 모델(LLM)이 프롬프트에서 지정된 규칙을 따르지 않도록 하는 방법을 연구합니다. 규칙 준수를 명제 Horn 논리에서의 추론으로 공식화하여, 규칙이 "$P$와 $Q$이면 $R$"의 형태를 갖는 수학적 시스템으로 정의합니다. 소규모 트랜스포머는 이러한 규칙을 충실히 따를 수 있지만, 악의적으로 작성된 프롬프트는 이론적 구성과 데이터로 학습된 모델 모두를 오도할 수 있음을 증명합니다. 또한, LLM에 대한 인기 있는 공격 알고리즘이 적대적 프롬프트를 찾고 이론과 일치하는 주의 패턴을 유도함을 보여줍니다. 논리 기반 프레임워크는 규칙 기반 설정에서 LLM을 연구하기 위한 기반을 제공하여 논리적 추론 및 탈옥 공격과 같은 작업에 대한 공식적인 분석을 가능하게 합니다.