Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La quantification des LLM ne diminue pas de manière disproportionnée les performances multilingues

Created by
  • Haebom

Auteur

Karl Audun Borgersen, Morten Goodwin

Contour

Une étude a été réalisée pour réduire la taille du modèle Llama3.3 70B tout en maintenant ses performances pour un déploiement local sur du matériel grand public, à l'aide du format GGUF et de la k_quantification. Le nombre de bits attribués à chaque pondération est réduit en fonction de son importance lors de l'inférence du modèle, et cette importance est déterminée par un petit document texte appelé « matrice d'importance » qui représente les cas d'utilisation standard. La matrice d'importance existante étant principalement rédigée en anglais, il est difficile de savoir si elle dégradera les performances dans d'autres langues. Par conséquent, nous quantifions Llama3.3 70B à l'aide de matrices d'importance rédigées en anglais, norvégien et malayalam, et évaluons les performances en anglais et en norvégien avec le jeu de données MixEval.

Takeaways, Limitations

Takeaways: Il est démontré que la méthode de quantification actuelle n'entraîne pas de dommages disproportionnés aux performances multilingues. Il est démontré que la dégradation des performances n'est pas importante, même lorsque des matrices d'importance de différentes langues sont utilisées.
Limitations: Aucun résultat statistiquement significatif n'a été obtenu. Des recherches supplémentaires utilisant davantage de langues et un ensemble de données plus large sont nécessaires. Le nombre de langues utilisées dans l'expérience était limité.
👍