Cet article présente une méthode permettant de transformer des modèles Transformer à grande échelle en RNN linéaires (par exemple, Mamba) pour un déploiement efficace. Nous démontrons qu'il est possible de distiller les connaissances de Transformer en RNN linéaires en réutilisant les pondérations de projection linéaire des couches d'attention de Transformer à l'aide de ressources GPU académiques. Nous construisons un modèle hybride contenant seulement quelques couches d'attention, qui atteint des performances similaires à celles du Transformer original sur les benchmarks de chat et surpasse le modèle hybride open source Mamba entraîné sur des jetons massifs sur les benchmarks de chat et généraux. Nous présentons également un algorithme de décodage prédictif sensible au matériel qui accélère la vitesse d'inférence des modèles Mamba et hybrides. Le modèle le plus performant, issu de Llama3-8B-Instruct, atteint un taux de gain contrôlé par la longueur de 29,61 contre GPT-4 sur AlpacaEval 2 et un taux de gain de 7,35 sur MT-Bench, surpassant ainsi le meilleur modèle RNN linéaire à l'échelle 8B réglé par directive. Le modèle distillé présente une extrapolation de longueur naturelle et atteint une précision quasi parfaite lors d'un test de l'aiguille dans une botte de foin de longueur 20x. Le code et les points de contrôle pré-entraînés sont accessibles au public.