본 연구는 대규모 언어 모델(LLM)의 안전한 상태와 탈옥(jailbreaking) 상태의 잠재적 하위 공간을 조사하여 프롬프트 주입 공격과 같은 적대적 조작에 대한 취약성을 해결하고자 하였다. 연구진은 신경과학의 끌개 역학에서 영감을 얻어, LLM 활성화가 반 안정적인 상태로 안착한다는 가설을 세웠다. 차원 축소 기법을 사용하여 안전한 응답과 탈옥된 응답의 활성화를 투영하여 저차원 공간에서 잠재적 하위 공간을 드러냈다. 그 후, 안전한 표현에 적용하여 모델을 탈옥 상태로 이동시키는 섭동 벡터를 도출하였다. 실험 결과, 이러한 인과적 개입은 일부 프롬프트에서 통계적으로 유의미한 탈옥 응답을 초래함을 보여주었다. 또한, 유도된 상태 변화가 모델의 계층 전체에 걸쳐 국지적으로 유지되는지 또는 캐스케이드되는지 여부를 테스트하기 위해 섭동이 모델 계층을 통해 어떻게 전파되는지 조사하였다. 연구 결과, 표적화된 섭동은 활성화와 모델 응답에서 뚜렷한 변화를 유발하였다. 이러한 접근 방식은 기존의 안전장치 기반 방법에서 표현 수준에서 적대적 상태를 무력화하는 선제적이고 모델과 무관한 기술로 전환하여 잠재적인 사전 방어를 위한 길을 열었다.