Este artículo presenta un método para transformar modelos Transformer a gran escala en RNN lineales (p. ej., Mamba) para una implementación eficiente. Demostramos que es posible destilar conocimiento de Transformer en RNN lineales mediante la reutilización de pesos de proyección lineal de las capas de atención de Transformer utilizando recursos de GPU académicos. Construimos un modelo híbrido con pocas capas de atención, que logra un rendimiento similar al del Transformer original en benchmarks de chat y supera al modelo híbrido Mamba de código abierto entrenado con tokens masivos tanto en benchmarks de chat como generales. También presentamos un algoritmo de decodificación predictiva con reconocimiento de hardware que acelera la velocidad de inferencia de Mamba y los modelos híbridos. El modelo con mejor rendimiento, destilado de Llama3-8B-Instruct, alcanza una tasa de victorias controlada por longitud de 29.61 frente a GPT-4 en AlpacaEval 2 y una tasa de victorias de 7.35 en MT-Bench, superando al mejor modelo de RNN lineal ajustado por directivas a escala 8B. El modelo destilado presenta una extrapolación natural de la longitud y alcanza una precisión casi perfecta en una prueba de búsqueda de una aguja en un pajar con una longitud de 20x. El código y los puntos de control preentrenados están disponibles públicamente.