Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage d'ensemble pour les grands modèles de langage dans la génération de texte et de code : une enquête

Created by
  • Haebom

Auteur

Mari Ashiga, Wei Jie, Fan Wu, Vardan Voskanyan, Fateme Dinmohammadi, Paul Brookes, Jingzhi Gong, Zheng Wang

Contour

Cet article examine les techniques d'assemblage pour les modèles linguistiques à grande échelle (LLM) basées sur des transformateurs pré-entraînés génératifs (GPT). Les LLM individuels produisent souvent des résultats incohérents et présentent des biais, ce qui limite leur capacité à représenter adéquatement divers modèles linguistiques. De plus, de nombreux LLM puissants sont à code source fermé, ce qui limite leurs applications industrielles en raison de préoccupations liées à la confidentialité des données. Fort de leur succès en génération de texte, cet article examine les techniques d'ensemble LLM pour la génération de code et analyse leurs capacités en les classant en sept approches clés : fusion pondérée, fusion de connaissances, mixage d'experts, ensemble de récompenses, ensemble de sorties, routage et cascade. Nous soulignons leurs principaux avantages, notamment une meilleure représentation de la diversité, une meilleure qualité de sortie et une flexibilité d'application accrue. Cette approche facilite la sélection de modèles pour des tâches pratiques et pose les bases de l'extension des stratégies d'ensemble aux LLM multimodaux.

Takeaways, Limitations

Takeaways:
Les techniques d’ensemble LLM offrent le potentiel d’améliorer la représentation de la diversité, d’améliorer la qualité de sortie et d’accroître la flexibilité des applications.
Fournir des critères de sélection de modèles efficaces grâce à une analyse des caractéristiques, des avantages et des inconvénients de sept principales méthodes d'ensemble LLM.
Suggérant la possibilité d’étendre les stratégies d’ensemble aux LLM multimodaux.
Limitations:
Cet article se concentre sur l’examen des recherches existantes et n’inclut pas de propositions de nouvelles techniques d’ensemble ou de résultats expérimentaux.
L’absence de comparaison et d’analyse des performances de chaque technique d’ensemble peut entraîner un manque d’orientation claire sur la sélection de la technique optimale pour une application pratique.
Manque de suggestions spécifiques pour étendre les stratégies d’ensemble au LLM multimodal.
👍