Cet article présente les résultats d'une analyse comparative du modèle GPT-OSS-20B basé sur un mélange d'experts (MoE) avec des modèles denses tels que Qwen3-32B et Yi-34B dans un environnement GPU unique (H100, bf16). Dans un contexte de 2 048 jetons et des conditions de décodage de 64 jetons, GPT-OSS-20B a affiché un débit de décodage et une efficacité énergétique par jeton supérieurs à ceux de Qwen3-32B et Yi-34B. En particulier, il a considérablement réduit l'utilisation maximale de la VRAM et la consommation d'énergie pour 1 000 jetons générés. Cependant, le délai de génération du premier jeton (TTFT) était plus long en raison de la surcharge de routage du MoE. Malgré seulement 17,3 % du total des paramètres activés (3,61 milliards contre 20,9 milliards), GPT-OSS-20B a atteint un débit de décodage supérieur d'environ 31,8 % et une consommation d'énergie inférieure de 25,8 % à celle de Qwen3-32B, avec une utilisation maximale de la VRAM inférieure de 31,7 %. Compte tenu de l'efficacité par paramètre activé (APE), GPT-OSS-20B a affiché une efficacité nettement supérieure, soulignant les avantages du déploiement du MoE. Cette étude s'est concentrée sur le déploiement plutôt que sur l'évaluation de la précision, et le code et les résultats sont rendus publics à des fins de reproductibilité et d'extension.