Sign In

Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism

Created by
  • Haebom
Category
Empty

저자

Aviv Bick, Eric Xing, Albert Gu

개요

본 논문은 Transformer 기반 언어 모델과 State Space Model(SSM) 기반 언어 모델에서 맥락 내 검색(in-context retrieval)이 어떻게 작동하는지 조사한다. 두 아키텍처 모두 Gather-and-Aggregate(G&A) 메커니즘을 사용하여 맥락에서 관련 정보를 추출하고 통합하는 것을 발견했다. G&A 메커니즘은 소수의 헤드에 집중되어 있으며, 이 헤드들은 검색을 필요로 하는 벤치마크에서 중요한 병목 현상을 야기한다. 예를 들어, 축소된 Llama-3.1-8B 모델에서 단일 Gather 또는 Aggregate 헤드를 비활성화하면 MMLU에서 정답률이 66%에서 25%로 감소한다. 이는 맥락 내 검색이 특정 작업의 제한된 지식 요구를 가릴 수 있음을 시사한다. SSM의 검색 과제는 G&A를 구현하는 방식에 나타나며, 효과적인 G&A에 필요한 날카로운 토큰 전환보다는 부드러운 어텐션 패턴을 생성한다. 따라서 Transformer와 SSM 간의 맥락 내 검색 구현에는 차이가 있지만, 이는 전체 모델이 아닌 소수의 헤드에 국한된다. 이러한 통찰력은 Transformer와 SSM 간의 성능 차이에 대한 통합적인 설명을 제시하며, 두 모델의 장점을 결합하는 방법을 강조한다.

시사점, 한계점

시사점: Transformer와 SSM 모두 동일한 G&A 메커니즘을 사용하여 맥락 내 검색을 수행한다는 것을 밝혀냄으로써 두 아키텍처의 성능 차이에 대한 통합적인 이해를 제공한다. 소수의 헤드에 집중된 G&A 메커니즘의 중요성을 강조하며, 이를 개선함으로써 SSM의 성능을 향상시킬 수 있는 가능성을 제시한다. 예를 들어, 사전 훈련된 하이브리드 모델에서 어텐션 구성 요소가 Aggregate Head 역할을 자연스럽게 수행하며, 사전 훈련된 순수 SSM에서 단일 G&A 헤드를 어텐션 기반 변형으로 대체하면 검색 성능이 크게 향상된다.
한계점: 본 연구는 특정 모델과 벤치마크에 대한 분석 결과를 바탕으로 하므로, 다른 모델이나 작업에 대한 일반화 가능성은 제한적일 수 있다. G&A 메커니즘의 상세한 작동 원리에 대한 추가적인 연구가 필요하다. 또한, 제시된 G&A 헤드 개선 방법의 효과를 다양한 상황에서 검증하는 추가적인 실험이 필요하다.
👍