Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FP4 All the Way : Formation entièrement quantifiée des LLM

Created by
  • Haebom

Auteur

Brian Chmiel, Maxim Fishman, Ron Banner, Daniel Soudry

Contour

Cet article démontre pour la première fois l'apprentissage entièrement quantifié (FQT) de modèles de langage à grande échelle (LLM), en utilisant principalement une précision à virgule flottante 4 bits (FP4) pour tous les poids, fonctions d'activation et gradients. À l'aide d'un jeu de données pouvant atteindre 200 milliards de jetons, nous explorons en profondeur les principaux choix de conception pour FP4, notamment la taille des blocs, le format de mise à l'échelle et la méthode d'arrondi. Notre analyse révèle que le format NVFP4, où des blocs de 16 valeurs FP4 (E2M1) partagent une échelle représentée par E4M3, produit des résultats optimaux. La stabilité est améliorée par l'utilisation d'un arrondi stochastique lors des passes de rétropropagation et de mise à jour, et d'un arrondi au plus proche voisin lors de la passe directe. De plus, nous identifions des seuils théoriques et empiriques pour un apprentissage quantifié efficace. Lorsque la norme du gradient tombe en dessous d'environ $\sqrt{3}$ fois le bruit de quantification, l'apprentissage quantifié devient moins efficace. Grâce à ces connaissances, nous avons réussi à entraîner un modèle de 7 milliards de paramètres à l'aide de 256 accélérateurs Intel Gaudi2. Les modèles entraînés avec FP4 ont ainsi obtenu des performances de sous-tâches comparables à celles de la base de référence BF16 standard, démontrant ainsi que l'apprentissage FP4 est une approche pratique et très efficace pour l'entraînement LLM à grande échelle. Une implémentation de référence est fournie dans https://github.com/Anonymous1252022/fp4-all-the-way .

Takeaways, Limitations_

Takeaways:
Première démonstration de la faisabilité d'un apprentissage entièrement quantifié utilisant un nombre à virgule flottante 4 bits (FP4) dans la formation de modèles de langage à grande échelle.
Réaliser un apprentissage LLM efficace et stable basé sur FP4 en tirant parti du format NVFP4, de l'arrondi probabiliste et des techniques d'arrondi le plus proche.
Présentation des seuils théoriques et expérimentaux pour l'efficacité de l'apprentissage par quantification.
Nous démontrons la praticabilité de l’apprentissage basé sur le FP4 en obtenant des performances comparables à la référence BF16.
La reproductibilité est assurée par une implémentation de référence publique.
Limitations:
Le seuil présenté dans cet article ($\sqrt{3}$ fois le bruit de quantification) peut être le résultat d'un paramètre spécifique, et des recherches supplémentaires peuvent être nécessaires pour d'autres modèles ou ensembles de données.
Les résultats expérimentaux utilisant 256 accélérateurs Intel Gaudi2 dépendent du matériel et les performances sur d'autres matériels peuvent varier.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’implémentation actuellement publiée et son applicabilité à diverses architectures de modèles.
Bien que nous ayons utilisé un ensemble de données pouvant contenir jusqu'à 200 milliards de jetons, l'évolutivité vers des ensembles de données plus importants doit être vérifiée par des recherches plus approfondies.
👍