Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉDition efficace de modèles mixtes d'experts avec des experts compressés

Created by
  • Haebom

Auteur

Yifei He, Yang Liu, Chen Liang, Hany Hassan Awadalla

Contour

Cet article propose le concept d'experts compressés pour une mise à l'échelle efficace des modèles de mélange d'experts (MoE). Les modèles MoE existants n'activent qu'un sous-ensemble d'experts lors de l'apprentissage et de l'inférence, mais tous les experts activés ne contribuent pas de manière égale aux performances. Cette étude propose une méthode pour réduire le nombre de paramètres actifs et les coûts d'inférence en remplaçant les experts insignifiants par des modules compressés et légers. Les résultats expérimentaux obtenus avec les modèles Phi-MoE et OLMoE démontrent que les experts compressés récupèrent plus de 90 % de la performance totale des experts tout en réduisant les paramètres actifs de plus de 30 % et les coûts d'inférence de plus de 20 %. Cela permet un déploiement efficace des modèles MoE dans des environnements aux ressources limitées et leur mise à l'échelle vers des modèles plus grands. Le code est disponible à l'adresse https://github.com/yifei-he/Compressed-Experts .

Takeaways, Limitations

Takeaways:
Présentation d'une nouvelle méthode qui peut améliorer considérablement l'efficacité du modèle MoE.
Déploiement de modèle MoE économe en ressources avec des paramètres actifs et des coûts d'inférence réduits.
Amélioration de l’évolutivité des modèles MoE à grande échelle.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode de compression proposée.
D’autres expériences avec différentes architectures MoE et tâches en aval sont nécessaires.
Une analyse quantitative de la perte d’informations lors de la compression est nécessaire.
👍