Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Teuken-7B-Base et Teuken-7B-Instruct : vers des masters européens

Created by
  • Haebom

Auteur

Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lubbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny Jorg Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo' Brandizzi, Qasid Saleem, Anirban Bhowmick, Lennard Helmer, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Oleg Filatov, Fabio Barth, Paramita Mirza, Lucas Weber, Ines Wendler, Rafet Sifa, Fabian Kuch , Andreas Herten, Ren J akel, Georg Rehm, Stefan Kesselheim, Joachim K ohler, Nicolas Flores-Herr

Contour

Nous présentons deux modèles linguistiques multilingues à grande échelle (LLM), Teuken 7B-base et Teuken 7B-instruct. Ces modèles sont conçus pour prendre en compte la diversité linguistique de l'Europe en prenant en charge les 24 langues officielles de l'Union européenne. Entraînés sur un ensemble de données composé d'environ 60 % de données non anglaises, ils utilisent des tokenizers multilingues personnalisés pour pallier les limitations des LLM existants, qui se concentrent sur l'anglais ou un petit nombre de langues à ressources élevées. Nous détaillons les principes de développement du modèle, notamment l'organisation des données, l'optimisation des tokenizers et la méthodologie d'entraînement. Nous démontrons de solides performances lors de tests multilingues, notamment sur les versions européennes d'ARC, HellaSwag et TruthfulQA.

Takeaways, Limitations

Takeaways : Présente une étude de cas réussie de développement d'un LLM multilingue prenant en charge toutes les langues de l'Union européenne. Cette étude contribue à résoudre le problème de biais linguistique des LLM existants en se concentrant sur les données non anglaises. La praticabilité du modèle est démontrée par d'excellentes performances aux tests de performance multilingues.
Limitations : Manque d'informations détaillées sur la construction spécifique des ensembles de données et le processus d'optimisation du tokenizer. Manque d'analyse des performances pour des langues spécifiques. Manque d'analyse comparative avec d'autres LLM multilingues. Manque de discussion sur les biais potentiels du modèle et les questions éthiques.
👍