본 논문은 대규모 언어 모델(LLM)의 안전성 및 신뢰성과 관련된 연구의 핵심 주제인 Jailbreak 공격에 대해 다룬다. 기존 연구가 선형적 방법에 의존하여 공격 시도를 탐지하는 것과 달리, 본 연구는 성공적인 Jailbreak을 유발하는 프롬프트 내 선형 및 비선형 특징을 모두 조사한다. 35가지 공격 방법을 포괄하는 10,800개의 Jailbreak 시도로 구성된 새로운 데이터셋을 활용하여, 공개 가중치 LLM의 은닉 상태에 대한 선형 및 비선형 프로브를 훈련하여 Jailbreak 성공을 예측한다. 비선형 프로브 기반의 개입이 선형 프로브보다 더 큰 효과를 보이며, Jailbreak 성공과 관련된 특징이 프롬프트 표현에 비선형적으로 인코딩되어 있음을 시사한다.