본 논문은 언어 모델(LM)이 일대다 사실적 질의(예: 특정 국가의 도시 목록)에 답변하는 과정에서 지식을 회상하고 이전 답변을 반복하지 않는 메커니즘을 분석합니다. 다양한 데이터셋과 모델을 통해, LM이 '촉진-억제' 메커니즘을 사용한다는 것을 밝힙니다. 즉, 먼저 모든 답변을 회상한 후 이전에 생성된 답변을 억제하는 방식입니다. 주어와 이전 답변 토큰을 모두 사용하여 지식을 회상하며, 어텐션은 주어 정보를 전파하고 MLP는 답변을 촉진합니다. 그 후, 어텐션은 이전 답변 토큰에 집중하여 억제하고, MLP는 억제 신호를 증폭합니다. 초기 디코딩 및 인과 추적 외에도, Token Lens(특정 토큰에서 집계된 어텐션 업데이트를 디코딩)와 특정 토큰에 대한 어텐션 제거 후 MLP 출력 변화를 분석하는 knockout 방법을 도입하여 실험적 증거를 제시합니다. 결론적으로, LM의 내부 구성 요소가 다양한 입력 토큰과 상호 작용하여 복잡한 사실적 회상을 지원하는 방식에 대한 새로운 통찰력을 제공합니다.