본 논문은 Transformer 언어 모델(LM)이 초기 레이어에서 후기 레이어로 특징을 전달하는 메커니즘을 분석합니다. 특히, 특정 작업에서 컨텍스트 내 항목을 선택적으로 억제하는 데 사용되는 메커니즘을 분석하여, 이 메커니즘이 다양한 컨텍스트 검색 동작에서 공통적으로 사용되는 추상화의 기반이 됨을 밝힙니다. GPT-2 모델의 활성화에서 특정 3차원 부분 공간을 통해 목록의 항목을 위치적으로 색인화하는 방식을 발견하고, 이 메커니즘이 프롬프트 내 항목 순서에 대한 모델의 민감성을 설명할 수 있음을 보여줍니다. 특히, 많은 항목이 제한된 공간을 "혼잡"하게 할 때 모델이 컨텍스트에서 올바른 정보를 복사하는 데 어려움을 겪는다는 것을 밝힙니다. 특이값 분해(SVD)를 사용하여 어텐션 헤드를 분해하여, 여러 레이어로 분리된 헤드 간의 상호 작용을 가중치 행렬 분석만으로 예측할 수 있음을 보여줍니다. 합성 세탁 목록 작업(목록에서 정보를 회상해야 하는 작업)에서 모델 내부 표현을 조작하고 모델 가중치를 수정하여 성능을 크게 향상시킬 수 있음을 보여주며, 20% 이상의 정확도 향상을 달성했습니다. 이 분석을 통해 언어 모델 사전 학습으로 학습된 놀라울 정도로 복잡하고 해석 가능한 구조를 밝히고, 정교한 LM이 간단한 영역에서 실패하는 이유를 이해하는 데 도움을 줍니다.