Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Rapport technique SpikingBrain : grands modèles inspirés de Spiking Brain
Created by
Haebom
Auteur
Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li
Contour
Cet article propose le modèle SpikingBrain, inspiré du cerveau, pour remédier aux problèmes d'efficacité (augmentation quadratique de la complexité de calcul et augmentation linéaire de la mémoire) des modèles de langage à grande échelle existants basés sur Transformer. En exploitant le cluster GPU MetaX, nous avons développé deux modèles, SpikingBrain-7B (LLM linéaire) et SpikingBrain-76B (LLM MoE linéaire hybride), en nous concentrant sur trois aspects : architectures d'attention linéaire et hybride linéaire, pipelines d'apprentissage efficaces basés sur la transformation, infrastructure de codage de pointes dédiée, infrastructure d'apprentissage personnalisée et stratégies de traitement parallèle. Ces modèles démontrent la faisabilité du développement de LLM à grande échelle sur des plateformes non NVIDIA et atteignent des performances similaires à celles du modèle de base open source Transformer avec un nombre de jetons nettement inférieur (environ 150 B). En particulier, ils améliorent significativement l'efficacité de l'apprentissage de longues séquences et effectuent des inférences avec une mémoire (partiellement) constante et un comportement de pointe piloté par les événements. Par exemple, SpikingBrain-7B réduit de plus de 100 fois le temps de génération du premier jeton d'une séquence de 4 millions de jetons. En maintenant un entraînement stable pendant des semaines sur des centaines de GPU MetaX C550, le modèle 7B atteint une utilisation des FLOPs de 23,4 % et une parcimonie de 69,15 %, permettant un fonctionnement à faible consommation.
Takeaways, Limitations
•
Takeaways:
◦
Suggérant la possibilité d'un développement LLM à grande échelle sur des plateformes non NVIDIA
◦
Améliorer l'efficacité du traitement des textes longs grâce à des modèles inspirés du cerveau
◦
Amélioration de l'efficacité de l'apprentissage et de l'inférence par rapport aux modèles existants basés sur Transformer (en particulier le traitement des séquences longues)
◦
Capacité de fonctionnement à faible consommation d'énergie
◦
Excellente vitesse initiale de génération de jetons
•
Limitations:
◦
Un système spécialement conçu pour les clusters GPU MetaX, nécessitant une vérification de la portabilité vers d'autres plates-formes.
◦
La comparaison des performances du modèle proposé se limite au modèle de référence open source Transformer. Une analyse comparative avec différents modèles de pointe est nécessaire.
◦
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation du modèle SpikingBrain et son applicabilité à diverses tâches.
◦
La taille du modèle (7B, 76B) est moyenne par rapport à d'autres modèles de langage à grande échelle, le développement d'un modèle à plus grande échelle et une évaluation des performances sont donc nécessaires.