Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mosaïques de mémoire à grande échelle

Created by
  • Haebom

Auteur

Jianyu Zhang, Léon Bottou

Contour

Cet article présente les résultats d'une étude étendant le réseau Memory Mosaics, qui a démontré une capacité efficace d'apprentissage contextuel et de configuration sur des réseaux conventionnels de taille moyenne (niveau GPT-2) et des ensembles de données synthétiques à petite échelle, à un modèle de langage à grande échelle (niveau Llama-8B) et à des ensembles de données réels. Memory Mosaics v2, étendu à une échelle de 10 milliards de paramètres, est entraîné avec 1 000 milliards de jetons et ses performances sont évaluées selon trois aspects (stockage des connaissances d'entraînement, stockage de nouvelles connaissances et apprentissage contextuel). Les résultats montrent que Memory Mosaics v2 a des performances similaires à celles du Transformer en matière d'apprentissage des connaissances d'entraînement, et surpasse significativement ce dernier en termes de capacité à effectuer de nouvelles tâches lors de l'inférence (deuxième et troisième aspects). En particulier, Memory Mosaics v2 entraîné avec 1 000 milliards de jetons surpasse le Transformer entraîné avec 8 000 milliards de jetons, ce qui suggère que de telles améliorations de performances sont difficiles à obtenir simplement en augmentant les données d'entraînement du Transformer.

Takeaways, Limitations

Takeaways:
Nous validons les capacités supérieures d’apprentissage compositionnel et contextuel des mosaïques de mémoire dans les modèles linguistiques à grande échelle.
Memory Mosaic v2 s'est avéré supérieur à Transformer en termes de stockage de nouvelles connaissances et d'apprentissage contextuel.
Malgré la différence de taille des données de formation, Memory Mosaic v2 surpasse Transformer, soulignant l'avantage architectural de Memory Mosaic.
Limitations:
Cette étude présente les résultats pour un modèle et un ensemble de données d’une certaine échelle, et ne garantit pas les mêmes résultats pour des modèles ou des ensembles de données d’échelles différentes.
Il manque des informations détaillées sur les améliorations architecturales de Memory Mosaics v2.
Des évaluations supplémentaires pour diverses applications du monde réel sont nécessaires.
👍