Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Teuken-7B-Base y Teuken-7B-Instruct: Hacia los LLM europeos

Created by
  • Haebom

Autor

Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lubbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny J org Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo' Brandizzi, Qasid Saleem, Anirban Bhowmick, Lennard Helmer, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Oleg Filatov, Fabio Barth, Paramita Mirza, Lucas Weber, Ines Wendler, Rafet Sifa, Fabian K uch, Andreas Herten, Ren J akel, Georg Rehm, Stefan Kesselheim, Joachim K ohler, Nicolas Flores-Herr

Describir

Presentamos dos modelos lingüísticos multilingües a gran escala (LLM): Teuken 7B-base y Teuken 7B-instruct. Estos modelos están diseñados para abarcar la diversidad lingüística de Europa, admitiendo los 24 idiomas oficiales de la Unión Europea. Entrenados con un conjunto de datos compuesto por aproximadamente un 60 % de datos en idiomas distintos del inglés, utilizan tokenizadores multilingües personalizados para abordar las limitaciones de los LLM existentes, que se centran en el inglés o en un número reducido de idiomas con altos recursos. Detallamos los principios de desarrollo del modelo, incluyendo la organización de datos, la optimización de los tokenizadores y la metodología de entrenamiento. Demostramos un rendimiento sólido en pruebas de referencia multilingües, incluyendo el rendimiento en las versiones europeas de ARC, HellaSwag y TruthfulQA.

Takeaways, Limitations

Takeaways: Presenta un caso práctico exitoso del desarrollo de un modelo LLM multilingüe compatible con todos los idiomas de la Unión Europea. Este modelo contribuye a resolver el problema del sesgo lingüístico de los modelos LLM existentes al centrarse en datos distintos del inglés. Su viabilidad se demuestra mediante un excelente rendimiento en pruebas de referencia multilingües.
Limitations: Falta de información detallada sobre la construcción del conjunto de datos específico y el proceso de optimización del tokenizador. Falta de análisis de rendimiento para idiomas específicos. Falta de análisis comparativo con otros LLM multilingües. Falta de discusión sobre posibles sesgos del modelo y cuestiones éticas.
👍