Cet article présente les résultats d'une étude étendant le réseau Memory Mosaics, qui a démontré une capacité efficace d'apprentissage contextuel et de configuration sur des réseaux conventionnels de taille moyenne (niveau GPT-2) et des ensembles de données synthétiques à petite échelle, à un modèle de langage à grande échelle (niveau Llama-8B) et à des ensembles de données réels. Memory Mosaics v2, étendu à une échelle de 10 milliards de paramètres, est entraîné avec 1 000 milliards de jetons et ses performances sont évaluées selon trois aspects (stockage des connaissances d'entraînement, stockage de nouvelles connaissances et apprentissage contextuel). Les résultats montrent que Memory Mosaics v2 a des performances similaires à celles du Transformer en matière d'apprentissage des connaissances d'entraînement, et surpasse significativement ce dernier en termes de capacité à effectuer de nouvelles tâches lors de l'inférence (deuxième et troisième aspects). En particulier, Memory Mosaics v2 entraîné avec 1 000 milliards de jetons surpasse le Transformer entraîné avec 8 000 milliards de jetons, ce qui suggère que de telles améliorations de performances sont difficiles à obtenir simplement en augmentant les données d'entraînement du Transformer.