Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Débranchez et jouez avec les modèles de langage : Décomposer les experts en modèles de langage au moment de l'inférence

Created by
  • Haebom

Auteur

Nakyeong Yang, Jiwon Moon, Junseok Kim, Yunah Jang, Kyomin Jung

Contour

Cet article propose la Décomposition des Experts (DoE), un nouveau cadre permettant de réduire le coût d'inférence des modèles de langage à grande échelle (LLM). DoE définit les neurones jouant un rôle crucial dans une tâche spécifique comme des « experts », puis les identifie et les active dynamiquement pour chaque tâche afin d'accélérer l'inférence. À la demande d'un utilisateur, DoE recherche des experts pour la tâche, effectue l'inférence en utilisant uniquement ces experts et revient au modèle d'origine une fois la tâche terminée. Ce processus en quatre étapes démontre que DoE permet d'obtenir une accélération d'inférence jusqu'à 1,73 fois et une réduction des paramètres de 65 % tout en maintenant la précision. Nous validons l'efficacité de DoE et l'importance de ses composants par des comparaisons avec diverses méthodes d'identification d'experts et études d'ablation. Nous analysons également l'impact de la taille du lot, du nombre de jetons et du type de couche sur l'accélération de l'inférence. DoE est un cadre pratique et hautement évolutif, applicable aux architectures basées sur Transformer.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode permettant de réduire efficacement le coût d’inférence des modèles linguistiques à grande échelle est présentée.
Obtenez jusqu'à 1,73x d'accélération d'inférence et 65 % de réduction des paramètres sans compromettre la précision.
Un cadre évolutif applicable à diverses architectures basées sur Transformer.
Fournit des informations pratiques sur la manière dont des facteurs tels que la taille du lot, le nombre de jetons et le type de couche affectent la vitesse d'inférence.
Limitations:
Actuellement, nous présentons des résultats expérimentaux pour seulement cinq tests de compréhension du langage naturel. Des expériences supplémentaires sur diverses tâches et ensembles de données sont nécessaires.
Le coût de calcul du processus d'identification des experts peut augmenter avec la taille du modèle. Des recherches sont nécessaires pour améliorer l'efficacité de ce processus.
Des recherches supplémentaires sont nécessaires sur l’évaluation des applications et des performances dans les environnements de service réels.
👍