Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Au-delà de la pierre de Rosette : les forces d'unification dans la dynamique de généralisation
작성자
Haebom
Auteur
Carter Blum, Katja Filippova, Ann Yuan, Asma Ghandeharioun, Julian Zimmert, Fred Zhang, Jessica Hoffmann, Tal Linzen, Martin Wattenberg, Lucas Dixon, Mor Geva
Contour
Cet article explore le phénomène des modèles linguistiques à grande échelle (MLH) confrontés à des difficultés de transfert de connaissances multilingues, notamment le phénomène d'hallucinations lorsqu'on pose des questions dans une langue sur des faits exprimés dans une autre langue pendant l'apprentissage. Nous présentons un environnement contrôlé pour étudier les causes et la dynamique de ce phénomène en entraînant un modèle Transformer à petite échelle de A à Z sur un jeu de données multilingues synthétique. Nous identifions les phases d'apprentissage au cours desquelles le modèle développe des représentations distinctes ou unifiées des mêmes faits dans différentes langues, et démontrons que l'intégration est essentielle au transfert multilingue. De plus, nous montrons que le degré d'intégration dépend de l'information mutuelle entre les faits et les langues des données d'apprentissage, ainsi que de la facilité d'extraction des langues. Forts de ces connaissances, nous développons une méthode pour moduler le niveau de transfert multilingue en manipulant la distribution et la tokenisation des données, et présentons des métriques et des visualisations qui caractérisent formellement l'impact de l'intégration. Cette étude démontre comment un environnement contrôlé peut contribuer à élucider la dynamique de pré-apprentissage et suggère de nouvelles pistes pour améliorer le transfert multilingue des LMH.
Takeaways, Limitations
•
Takeaways:
◦
Présentation d'un nouvel environnement contrôlé pour l'analyse étiologique et épidémiologique des phénomènes hallucinatoires dans les LLM lors du transfert de connaissances multilingues.
◦
Il a été démontré que l’intégration de représentations factuelles entre les langues est essentielle au transfert multilingue.
◦
Nous démontrons que l’information mutuelle entre les faits et le langage et la facilité d’extraction du langage affectent le degré d’intégration.
◦
Développement d'une méthode permettant de contrôler le niveau de transfert multilingue par la distribution de données et la manipulation de tokenisation.
◦
Présentation de nouvelles métriques et outils de visualisation pour caractériser l’effet d’intégration.
◦
Présentation de nouvelles orientations de recherche pour améliorer le transfert multilingue des LLM.
•
Limitations:
◦
L’utilisation d’ensembles de données synthétiques limite la généralisabilité aux ensembles de données du monde réel.
◦
Difficulté à généraliser les résultats à des modèles plus grands en utilisant des modèles Transformer à petite échelle.
◦
Des recherches supplémentaires sont nécessaires sur l’application pratique et l’efficacité des méthodes proposées dans les LLM.