Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SLED : Décodage de l'évolution des logits pour améliorer la facticité dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Jianyi Zhang, Da-Cheng Juan, Cyrus Rashtchian, Chun-Sung Ferng, Heinrich Jiang, Yiran Chen

Contour

Cet article propose le décodage d'évolution des logits (SLED), un nouveau cadre de décodage permettant d'améliorer la fiabilité et la précision factuelle des résultats des modèles de langage à grande échelle (LLM). SLED exploite les connaissances latentes du LLM pour améliorer la précision factuelle des résultats, sans nécessiter de base de connaissances externe ni de réglages supplémentaires. Il compare les logits de sortie des couches finale et initiale et utilise une approche par gradient approximatif pour permettre aux connaissances latentes d'auto-améliorer les résultats. Des expériences approfondies sur différentes familles et tailles de modèles (1 B à 45 B), notamment Gemma, Qwen, Mixtral et gpt-oss, ainsi que sur des configurations d'architecture avancées telles que MoE, démontrent que SLED améliore systématiquement la précision factuelle par rapport aux méthodes de décodage existantes, tout en maintenant la fluidité du langage naturel et en induisant une latence négligeable. De plus, il peut être combiné de manière flexible avec d'autres méthodes de décodage pour améliorer encore les performances.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode de décodage qui améliore la précision factuelle du LLM sans bases de connaissances externes ni ajustements supplémentaires.
Il est applicable à diverses architectures et tailles de modèles et présente de meilleures performances que les méthodes existantes.
Les performances peuvent être améliorées en les combinant avec d’autres méthodes de décodage.
Maintenez la fluidité du langage naturel et minimisez la latence.
Limitations:
Une vérification supplémentaire de la généralisabilité des résultats expérimentaux présentés dans cet article est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer si les effets d’amélioration des performances du SLED sont cohérents pour tous les types de LLM et pour toutes les tâches.
Une analyse plus approfondie est nécessaire pour traiter la dégradation potentielle des performances due aux limites de l’approche du gradient approximatif.
👍