दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

टेउकेन-7बी-बेस और टेउकेन-7बी-इंस्ट्रक्ट: यूरोपीय एलएलएम की ओर

Created by
  • Haebom

लेखक

मेहदी अली, माइकल फ्रोम, क्लाउडिया थेलमैन, जान एबर्ट, अलेक्जेंडर अर्नो वेबर, रिचर्ड रटमैन, चार्वी जैन, मैक्स लब्बरिंग, डैनियल स्टीनिगन, जोहान्स लेवलिंग, कैटरीन क्लुग, जैस्पर शुल्ज़ बुशहॉफ, लेना जर्कसचैट, हम्माम अब्देलवहाब, बेनी जे ऑर्ग स्टीन, कार्ल-हेंज सिला, पावेल डेनिसोव, निकोलो ब्रैंडिज़ी, कासिद सलीम, अनिर्बान भौमिक, लेनार्ड हेल्मर, चेल्सी जॉन, पेड्रो ऑर्टिज़ सुआरेज़, माल्टे ओस्टेनडॉर्फ, एलेक्स जूड, ललित मंजूनाथ, सैमुअल वेनबैक, कैरोलिन पेनके, ओलेग फिलाटोव, फैबियो बार्थ, परमिता मिर्जा, लुकास वेबर, इनेस वेंडलर, रफेट सिफा, फैबियन के उच, एंड्रियास हर्टन, रेन जे अकेल, जॉर्ज रेहम, स्टीफन केसलहेम, जोआचिम के ओहलर, निकोलस फ्लोरेस-हेर

रूपरेखा

हम दो बहुभाषी वृहद-स्तरीय भाषा मॉडल (LLM), Teuken 7B-base और Teuken 7B-instruct प्रस्तुत करते हैं। ये मॉडल यूरोपीय संघ की सभी 24 आधिकारिक भाषाओं का समर्थन करके यूरोप की भाषाई विविधता को समाहित करने के लिए डिज़ाइन किए गए हैं। लगभग 60% गैर-अंग्रेज़ी डेटा वाले डेटासेट पर प्रशिक्षित, ये मॉडल मौजूदा LLM की सीमाओं को दूर करने के लिए कस्टम बहुभाषी टोकनाइज़र का उपयोग करते हैं, जो अंग्रेज़ी या कुछ उच्च-संसाधन भाषाओं पर केंद्रित हैं। हम डेटा संगठन, टोकनाइज़र अनुकूलन और प्रशिक्षण पद्धति सहित मॉडल विकास सिद्धांतों का विस्तार से वर्णन करते हैं। हम बहुभाषी बेंचमार्क पर मज़बूत प्रदर्शन प्रदर्शित करते हैं, और ARC, HellaSwag और TruthfulQA के यूरोपीय संस्करणों पर प्रदर्शन का प्रदर्शन करते हैं।

Takeaways, Limitations

Takeaways: यूरोपीय संघ की सभी भाषाओं का समर्थन करने वाले बहुभाषी एलएलएम मॉडल के विकास का एक सफल केस स्टडी प्रस्तुत करता है। यह मॉडल गैर-अंग्रेज़ी डेटा पर ध्यान केंद्रित करके मौजूदा एलएलएम मॉडलों की भाषा संबंधी पूर्वाग्रह की समस्या को हल करने में योगदान देता है। बहुभाषी बेंचमार्क पर उत्कृष्ट प्रदर्शन के माध्यम से मॉडल की व्यावहारिकता प्रदर्शित होती है।
Limitations: विशिष्ट डेटासेट निर्माण और टोकनाइज़र अनुकूलन प्रक्रिया पर विस्तृत जानकारी का अभाव। विशिष्ट भाषाओं के लिए प्रदर्शन विश्लेषण का अभाव। अन्य बहुभाषी एलएलएम के साथ तुलनात्मक विश्लेषण का अभाव। संभावित मॉडल पूर्वाग्रह और नैतिक मुद्दों पर चर्चा का अभाव।
👍