Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GPT-OSS-20B : Analyse complète centrée sur le déploiement du modèle Open-Weight Mixture of Experts d'OpenAI

Created by
  • Haebom

Auteur

Deepak Kumar, Divakar Yadav, Yash Patel

Contour

Cet article présente les résultats d'une analyse comparative du modèle GPT-OSS-20B basé sur un mélange d'experts (MoE) avec des modèles denses tels que Qwen3-32B et Yi-34B dans un environnement GPU unique (H100, bf16). Dans un contexte de 2 048 jetons et des conditions de décodage de 64 jetons, GPT-OSS-20B a affiché un débit de décodage et une efficacité énergétique par jeton supérieurs à ceux de Qwen3-32B et Yi-34B. En particulier, il a considérablement réduit l'utilisation maximale de la VRAM et la consommation d'énergie pour 1 000 jetons générés. Cependant, le délai de génération du premier jeton (TTFT) était plus long en raison de la surcharge de routage du MoE. Malgré seulement 17,3 % du total des paramètres activés (3,61 milliards contre 20,9 milliards), GPT-OSS-20B a atteint un débit de décodage supérieur d'environ 31,8 % et une consommation d'énergie inférieure de 25,8 % à celle de Qwen3-32B, avec une utilisation maximale de la VRAM inférieure de 31,7 %. Compte tenu de l'efficacité par paramètre activé (APE), GPT-OSS-20B a affiché une efficacité nettement supérieure, soulignant les avantages du déploiement du MoE. Cette étude s'est concentrée sur le déploiement plutôt que sur l'évaluation de la précision, et le code et les résultats sont rendus publics à des fins de reproductibilité et d'extension.

Takeaways, Limitations

Takeaways:
Nous démontrons que le modèle GPT-OSS-20B basé sur MoE offre un débit de décodage et une efficacité énergétique supérieurs dans un environnement à GPU unique par rapport au modèle dense.
Malgré le faible pourcentage de paramètres actifs, GPT-OSS-20B surpasse les modèles denses, démontrant l'efficacité du MoE.
Cela suggère qu’un déploiement efficace de modèles linguistiques à grande échelle est possible même dans des environnements aux ressources limitées.
Assurer le suivi des recherches et la reproductibilité grâce à un code et des résultats ouverts.
Limitations:
L’évaluation de la précision est exclue, ce qui rend difficile l’évaluation des performances globales du modèle.
Il existe un problème où le temps de génération du premier jeton augmente en raison de la surcharge de routage MoE.
ÉTant donné que cela a été évalué dans un environnement GPU unique, nous ne savons pas comment cela fonctionnerait lorsqu'il serait mis à l'échelle dans un environnement multi-GPU.
👍