본 논문은 추론 과정에서 인접 레이어를 삭제하거나 바꾸는 구조적 개입에 대한 대규모 언어 모델(LLM)의 강건성을 조사합니다. 놀랍게도, 모델은 미세 조정 없이 원래 최상위 1개 예측 정확도의 72-95%를 유지합니다. 성능 저하는 레이어 전반에 걸쳐 균일하지 않으며, 초기 및 최종 레이어에 대한 개입이 가장 큰 저하를 야기하는 반면, 중간 레이어를 삭제하는 것에는 상당히 강건합니다. 이러한 국소적 민감도 패턴은 다양한 모델 계열과 크기에 걸쳐 관찰되는 네 가지 추론 단계에 대한 가설을 제시합니다: (1) 로컬 컨텍스트를 통합하여 원시 토큰 임베딩을 고급 표현으로 상승시키는 디토크나이제이션, (2) 작업 및 엔티티 특정 기능을 반복적으로 개선하는 기능 엔지니어링, (3) 숨겨진 상태를 타당한 다음 토큰 예측으로 집계하는 예측 앙상블, (4) 관련 없는 기능을 억제하여 출력 분포를 최종화하는 잔여 선명화. 행동적 및 기계적 증거를 종합하여 LLM에서 깊이 의존적인 계산을 해석하기 위한 프레임워크를 제공합니다.