본 논문은 Transformer 언어 모델(LM)이 초기 레이어에서 후기 레이어로 특징을 전달하는 메커니즘을 분석합니다. 특히, GPT-2를 중심으로, 모델이 컨텍스트 내 항목을 선택적으로 억제하는 메커니즘을 분석하여, 여러 컨텍스트 검색 동작에서 공통적으로 사용되는 추상화 메커니즘임을 밝힙니다. 이는 잔차 스트림의 저차원 부분 공간에 특징을 기록하고 후기 레이어에서 읽어들이는 방식, 즉 레이어 간 저차원 통신 채널을 형성하는 것으로 나타났습니다. 특히 GPT-2의 활성화에서 특정 3차원 부분 공간은 리스트 내 항목의 위치 색인에 사용되며, 이 메커니즘이 프롬프트 내 항목 순서에 대한 모델의 민감도를 설명합니다. SVD를 이용한 어텐션 헤드 분해를 통해, 멀리 떨어진 레이어의 헤드 간 상호작용을 가중치 행렬 분석만으로 예측할 수 있음을 보입니다. 또한, 발견된 메커니즘을 기반으로 내부 모델 표현을 조작하고 모델 가중치를 편집하여 합성 세탁물 목록 작업(리스트에서 회상 필요)의 성능을 20% 이상 향상시킬 수 있음을 보입니다. 이 분석은 놀라울 정도로 복잡하고 해석 가능한 구조를 밝히고, 왜 정교한 LM이 간단한 영역에서 실패하는지 이해하는 데 도움을 줍니다.