본 논문은 추론 과정에서 인접 레이어를 삭제하거나 교체하는 구조적 변화에 대한 대규모 언어 모델(LLM)의 강건성을 조사합니다. 놀랍게도, 모델은 미세 조정 없이 원래 최상위 1개 예측 정확도의 72-95%를 유지합니다. 성능 저하는 레이어 전반에 걸쳐 균일하지 않으며, 초기 및 최종 레이어에 대한 변화가 가장 큰 저하를 야기하는 반면, 중간 레이어를 삭제하는 것에는 상당히 강건합니다. 이러한 국소적 민감도 패턴은 다양한 모델 계열과 크기에서 관찰되는 네 가지 추론 단계에 대한 가설을 제시합니다: (1) 로컬 컨텍스트를 통합하여 원시 토큰 임베딩을 상위 수준 표현으로 상승시키는 디토큰화; (2) 작업 및 엔티티별 특징을 반복적으로 개선하는 특징 엔지니어링; (3) 숨겨진 상태를 타당한 다음 토큰 예측으로 집계하는 예측 앙상블; (4) 관련 없는 특징을 억제하여 출력 분포를 최종화하는 잔차 선명화. 행동적 및 기계적 증거를 종합하여 LLM에서 깊이에 따른 계산을 해석하기 위한 프레임워크를 제공합니다.