Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

Created by
  • Haebom

저자

Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max Lubbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny Jorg Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo' Brandizzi, Qasid Saleem, Anirban Bhowmick, Lennard Helmer, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Oleg Filatov, Fabio Barth, Paramita Mirza, Lucas Weber, Ines Wendler, Rafet Sifa, Fabian Kuch, Andreas Herten, Rene Jakel, Georg Rehm, Stefan Kesselheim, Joachim Kohler, Nicolas Flores-Herr

개요

Teuken 7B-base와 Teuken 7B-instruct라는 두 개의 다국어 대규모 언어 모델(LLM)을 소개합니다. 이 모델들은 유럽연합의 공식 언어 24개 언어를 모두 지원하여 유럽의 언어 다양성을 포용하도록 설계되었습니다. 약 60%의 비영어 데이터로 구성된 데이터셋을 기반으로 학습되었고, 맞춤형 다국어 토크나이저를 사용하여 영어 또는 소수의 고자원 언어에 중점을 둔 기존 LLM의 한계를 해결합니다. 데이터 구성, 토크나이저 최적화 및 학습 방법론과 같은 모델 개발 원칙에 대해 자세히 설명합니다. 유럽 버전의 ARC, HellaSwag 및 TruthfulQA에서의 성능을 통해 다국어 벤치마크에서 강력한 성능을 보여줍니다.

시사점, 한계점

시사점: 유럽연합의 다양한 언어를 모두 지원하는 다국어 LLM 개발의 성공적인 사례 제시. 비영어 데이터 중심의 학습을 통해 기존 LLM의 언어 편향 문제 해결에 기여. 다국어 벤치마크에서 우수한 성능을 통해 모델의 실용성 증명.
한계점: 구체적인 데이터셋 구성 및 토크나이저 최적화 과정에 대한 상세한 정보 부족. 특정 언어에 대한 성능 편차 분석 부재. 다른 다국어 LLM과의 비교 분석이 부족. 모델의 잠재적인 편향 및 윤리적 문제에 대한 논의 부재.
👍