Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
ÉDition efficace de modèles mixtes d'experts avec des experts compressés
Created by
Haebom
Auteur
Yifei He, Yang Liu, Chen Liang, Hany Hassan Awadalla
Contour
Cet article propose le concept d'experts compressés pour une mise à l'échelle efficace des modèles de mélange d'experts (MoE). Les modèles MoE existants n'activent qu'un sous-ensemble d'experts lors de l'apprentissage et de l'inférence, mais tous les experts activés ne contribuent pas de manière égale aux performances. Cette étude propose une méthode pour réduire le nombre de paramètres actifs et les coûts d'inférence en remplaçant les experts insignifiants par des modules compressés et légers. Les résultats expérimentaux obtenus avec les modèles Phi-MoE et OLMoE démontrent que les experts compressés récupèrent plus de 90 % de la performance totale des experts tout en réduisant les paramètres actifs de plus de 30 % et les coûts d'inférence de plus de 20 %. Cela permet un déploiement efficace des modèles MoE dans des environnements aux ressources limitées et leur mise à l'échelle vers des modèles plus grands. Le code est disponible à l'adresse https://github.com/yifei-he/Compressed-Experts .