본 논문은 대립적 조건(backdoor fine-tuning 및 indirect prompt injection) 하에서 대규모 언어 모델(LLM)의 다차원 활성화 공간 내의 전역 구조와 국소적 세부 사항을 모두 포착하는 기법으로 지속적 호몰로지(Persistent Homology, PH)를 제안합니다. 6개의 최첨단 LLM을 분석하여 대립적 조건이 일관되게 잠재적 위상을 압축하고, 작은 스케일에서는 구조적 다양성을 감소시키는 반면, 더 큰 스케일에서는 지배적인 특징을 증폭시킨다는 것을 보여줍니다. 이러한 위상적 서명은 계층, 아키텍처, 모델 크기에 걸쳐 통계적으로 강건하며, 네트워크 내부 깊숙한 곳에서 대립적 효과의 출현과 일치합니다. 더욱 세밀한 메커니즘을 포착하기 위해, 계층 내 및 계층 간의 정보 흐름과 변환을 정량화하는 뉴런 수준의 PH 프레임워크를 도입합니다. 결론적으로, PH는 특히 분포 이동 하에서 LLM의 표상 역학을 해석하는 원칙적이고 통합적인 접근 방식을 제공합니다.