본 논문은 대규모 언어 모델(LLM)의 안전성과 신뢰성에 대한 연구에서 중심적인 주제인 탈옥(jailbreak)의 메커니즘을 심층적으로 분석합니다. 기존 연구들이 주로 선형 방법에 의존하여 탈옥 시도와 모델 거부를 감지한 것과 달리, 본 연구는 탈옥에 성공하는 프롬프트에서 선형 및 비선형 특징을 모두 조사합니다. 35가지 다양한 공격 방법에 걸쳐 10,800건의 탈옥 시도를 포함하는 새로운 데이터셋을 소개하고, 이를 활용하여 프롬프트 토큰에 해당하는 잠재 표현을 사용하여 성공적인 탈옥과 실패한 탈옥을 분류하는 프로브를 훈련합니다. 흥미롭게도, 프로브가 탈옥 성공 여부를 예측하는 데 높은 정확도를 달성하더라도, 그 성능은 종종 보이지 않는 공격 방법에 대해서는 일반화되지 못한다는 것을 발견했습니다. 이는 다양한 탈옥 전략이 서로 다른 비선형적이고 보편적이지 않은 특징을 활용함을 시사합니다. 또한 비선형 프로브가 모델 동작을 제어하는 강력한 도구임을 보여줍니다. 구체적으로, 이러한 프로브를 사용하여 목표 잠재 공간 섭동을 유도하여 탈옥에 대한 모델의 강건성을 효과적으로 조절할 수 있습니다. 전반적으로, 본 연구의 결과는 탈옥이 선형 또는 단순한 보편적 프롬프트 특징만으로는 완전히 이해될 수 없다는 가정에 이의를 제기하며, LLM 취약성 뒤에 숨겨진 메커니즘에 대한 미묘한 이해의 중요성을 강조합니다.