본 논문은 대규모 Transformer 모델을 효율적인 배포를 위해 선형 RNN(예: Mamba)으로 변환하는 방법을 제시합니다. 학술적 GPU 자원을 사용하여 Transformer의 어텐션 레이어의 선형 투영 가중치를 재활용하여 Transformer를 선형 RNN으로 지식 증류하는 것이 가능함을 보여줍니다. 일부 어텐션 레이어만 포함하는 하이브리드 모델을 제작하여, 원본 Transformer와 유사한 성능을 채팅 벤치마크에서 달성하고, 방대한 토큰으로 학습된 오픈소스 하이브리드 Mamba 모델보다 채팅 및 일반 벤치마크 모두에서 우수한 성능을 보입니다. 또한 Mamba 및 하이브리드 모델의 추론 속도를 높이는 하드웨어 인식 예측적 디코딩 알고리즘을 제시합니다. Llama3-8B-Instruct에서 증류된 최고 성능 모델은 AlpacaEval 2에서 GPT-4에 대해 29.61의 길이 제어 승률을, MT-Bench에서 7.35의 승률을 달성하며, 최고의 8B 규모 지시어 조정 선형 RNN 모델을 능가합니다. 증류된 모델은 자연적인 길이 외삽을 보이며, 20배 길이의 needle-in-a-haystack 테스트에서 거의 완벽한 정확도를 보입니다. 코드와 사전 훈련된 체크포인트는 공개적으로 제공됩니다.