Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

Created by
  • Haebom

作者

Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max L ubbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny J org Stein, Karn Nicolo' Brandizzi, Qasid Saleem, Anirban Bhowmick, Lennard Helmer, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Oleg Filatov, Fabio Barth, Paramita Mirza, Lucas Weber Andreas Herten, Ren e J akel, Georg Rehm, Stefan Kesselheim, Joachim K ohler, Nicolas Flores-Herr

概要

Teuken 7B-baseとTeuken 7B-instructという2つの多言語大規模言語モデル(LLM)を紹介します。これらのモデルは、欧州連合の公式言語24言語をすべてサポートし、欧州の言語多様性を包含するように設計されています。約60%の非英語データで構成されたデータセットに基づいて学習され、カスタマイズされた多言語トークナイザーを使用して、英語または少数の高資源言語に焦点を当てた既存のLLMの制限を解決します。データ構成、トルクナイザーの最適化、学習方法論などのモデル開発の原則について詳しく説明します。ヨーロッパ版のARC、HellaSwag、およびTruthfulQAでのパフォーマンスにより、多言語ベンチマークで強力なパフォーマンスが得られます。

Takeaways、Limitations

Takeaways:欧州連合のさまざまな言語をすべてサポートする多言語LLM開発の成功事例を提示します。非英語データ中心の学習による既存LLMの言語偏向問題解決に貢献多言語ベンチマークにおける優れた性能によるモデルの実用性の証明
Limitations:具体的なデータセット構成とトルクナイザー最適化プロセスに関する詳細な情報が不足しています。特定の言語の性能偏差分析の欠如他の多言語LLMとの比較分析が不足。モデルの潜在的な偏りと倫理的問題の議論の欠如
👍