Daily Arxiv

본 논문은 장문 시퀀스에 대한 효율적인 대안으로서 상태 공간 모델(SSM)을 제시하지만, 과거 문맥을 검색하는 등의 알고리즘 작업에서는 고정 크기의 순환 상태로 인해 제한적인 능력을 갖는다는 점을 다룹니다. 트랜스포머와 SSM 기반 언어 모델에서 문맥 내 검색이 작동하는 방식을 조사하여 두 모델 모두 Gather-and-Aggregate (G&A) 메커니즘(Gather Head가 문맥에서 관련 정보를 추출하고 Aggregate Head가 단일 표현으로 통합)에 의존함을 발견했습니다. 두 아키텍처 모두에서 G&A는 소수의 헤드에 집중되어 간단한 검색에서조차 중요한 병목 현상을 형성합니다. 예를 들어, 축소된 Llama-3.1-8B에서 단일 Gather 또는 Aggregate Head를 비활성화하면 MMLU에서 정답 문자를 검색하는 능력이 저하되어 정확도가 66%에서 25%(무작위 추측)로 감소합니다. 또한, 이러한 검색 병목 현상은 작업의 제한된 지식 요구 사항을 가릴 수 있습니다. 축소된 모델은 기능하는 G&A 헤드를 사용하여 MMLU에서는 성공하지만 다른 지식 벤치마크에서는 실패합니다. 이 병목 현상은 SSM이 일반적으로 성능이 저조한 GSM8K, BBH 및 대화 이해와 같은 작업에도 마찬가지로 적용됩니다. SSM의 검색 과제는 이러한 헤드에서 나타나며, 효과적인 G&A에 필요한 날카로운 토큰 전환 대신 더 부드러운 어텐션 패턴을 생성합니다. 따라서 트랜스포머와 SSM의 검색 성능 차이는 전체 언어 모델이 아닌 소수의 헤드에 존재합니다. 이는 트랜스포머와 SSM의 성능 차이에 대한 통합적인 설명을 제시하며, 각각의 강점을 결합하는 방법을 보여줍니다. SSM이 소수의 어텐션 레이어와 결합된 사전 훈련된 하이브리드 모델에서 어텐션이 Aggregate Head의 역할을 대신하는 것을 발견했습니다. 마찬가지로, 사전 훈련된 SSM에서 단일 G&A 헤드를 어텐션 변형으로 대체하면 검색 및 벤치마크 점수가 향상됩니다.

시사점, 한계점

•

시사점: 트랜스포머와 SSM의 성능 차이가 소수의 G&A 헤드에 국한됨을 밝힘으로써, 두 아키텍처의 장점을 결합하는 하이브리드 모델 개발의 가능성을 제시합니다. G&A 헤드의 중요성을 강조하여, 향후 모델 개발 및 성능 개선에 대한 방향을 제시합니다. SSM의 한계점을 명확히 밝히고, 이를 개선할 수 있는 구체적인 방법을 제시합니다.

•

한계점: 본 연구는 특정 모델과 벤치마크에 대한 분석에 기반하므로, 다른 모델이나 작업에 대한 일반화 가능성은 추가 연구가 필요합니다. G&A 헤드의 개선 외에 다른 요인들이 트랜스포머와 SSM의 성능 차이에 영향을 미칠 수 있습니다. 하이브리드 모델의 성능 향상에 대한 추가적인 실험적 검증이 필요합니다.

PDF 보기

Made with Slashpage