본 논문은 Transformer 기반 언어 모델과 State Space Model(SSM) 기반 언어 모델에서 맥락 내 검색(in-context retrieval)이 어떻게 작동하는지 조사한다. 두 아키텍처 모두 Gather-and-Aggregate(G&A) 메커니즘을 사용하여 맥락에서 관련 정보를 추출하고 통합하는 것을 발견했다. G&A 메커니즘은 소수의 헤드에 집중되어 있으며, 이 헤드들은 검색을 필요로 하는 벤치마크에서 중요한 병목 현상을 야기한다. 예를 들어, 축소된 Llama-3.1-8B 모델에서 단일 Gather 또는 Aggregate 헤드를 비활성화하면 MMLU에서 정답률이 66%에서 25%로 감소한다. 이는 맥락 내 검색이 특정 작업의 제한된 지식 요구를 가릴 수 있음을 시사한다. SSM의 검색 과제는 G&A를 구현하는 방식에 나타나며, 효과적인 G&A에 필요한 날카로운 토큰 전환보다는 부드러운 어텐션 패턴을 생성한다. 따라서 Transformer와 SSM 간의 맥락 내 검색 구현에는 차이가 있지만, 이는 전체 모델이 아닌 소수의 헤드에 국한된다. 이러한 통찰력은 Transformer와 SSM 간의 성능 차이에 대한 통합적인 설명을 제시하며, 두 모델의 장점을 결합하는 방법을 강조한다.