Cet article propose la Décomposition des Experts (DoE), un nouveau cadre permettant de réduire le coût d'inférence des modèles de langage à grande échelle (LLM). DoE définit les neurones jouant un rôle crucial dans une tâche spécifique comme des « experts », puis les identifie et les active dynamiquement pour chaque tâche afin d'accélérer l'inférence. À la demande d'un utilisateur, DoE recherche des experts pour la tâche, effectue l'inférence en utilisant uniquement ces experts et revient au modèle d'origine une fois la tâche terminée. Ce processus en quatre étapes démontre que DoE permet d'obtenir une accélération d'inférence jusqu'à 1,73 fois et une réduction des paramètres de 65 % tout en maintenant la précision. Nous validons l'efficacité de DoE et l'importance de ses composants par des comparaisons avec diverses méthodes d'identification d'experts et études d'ablation. Nous analysons également l'impact de la taille du lot, du nombre de jetons et du type de couche sur l'accélération de l'inférence. DoE est un cadre pratique et hautement évolutif, applicable aux architectures basées sur Transformer.