Dans cet article, nous proposons une méthode de décodage spéculatif (SPD) pour accélérer le processus de génération de jetons autorégressifs des modèles de langage à grande échelle (LLM). Les méthodes SPD existantes utilisent des modèles préliminaires à têtes multiples pour prédire les futures séquences de jetons, mais elles présentent des limites : elles traitent tous les jetons de manière égale et s'appuient sur une seule méthode de génération (série ou parallèle). Dans cet article, nous prouvons théoriquement que les premiers jetons sont plus importants que les derniers, et sur cette base, nous proposons Gumiho, un modèle hybride combinant des têtes série et parallèle. Gumiho utilise des têtes série avec une architecture Transformer sophistiquée pour améliorer la précision des premiers jetons, et plusieurs têtes MLP légères fonctionnant en parallèle pour améliorer l'efficacité. Nous obtenons une amélioration globale des performances en attribuant des structures de modèle plus avancées et des temps d'exécution plus longs aux premières têtes. Les résultats expérimentaux montrent que la méthode proposée surpasse les méthodes existantes.