दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कुवेन 1.5बी: भाषा इंजेक्शन के माध्यम से एक अरबी एसएलएम

Created by
  • Haebom

लेखक

खलील हेन्नारा, सारा क्रोफ, मोहम्मद मोताइस्म हामेद, ज़ीना अल्दालल, उमर हदीद, सफ़वान अलमोधायन

रूपरेखा

यह शोधपत्र किसी मौजूदा बड़े पैमाने के भाषा मॉडल (LLM) में एक नई भाषा को कुशलतापूर्वक एकीकृत करने की एक नवीन विधि प्रस्तुत करता है। हमने एक छोटे, ओपन-सोर्स, अंग्रेज़ी-आधारित मॉडल, कुवैन, को 1.5 अरब मापदंडों के साथ, अरबी भाषा को इसमें शामिल करके प्रशिक्षित किया। हमने मौजूदा ज्ञान को संरक्षित करते हुए अरबी प्रदर्शन में औसतन 8% सुधार हासिल किया, जिससे अंग्रेज़ी और अरबी दोनों के लिए एक व्यापक मॉडल के प्रशिक्षण का एक किफ़ायती विकल्प उपलब्ध हुआ। यह व्यापक पुनर्प्रशिक्षण या संसाधन-गहन प्रक्रियाओं के बिना भाषा मॉडलों के कुशल, लक्ष्य-उन्मुख स्केलिंग की क्षमता को दर्शाता है।

Takeaways, Limitations

Takeaways:
मौजूदा एलएलएम में कुशलतापूर्वक नई भाषाओं को जोड़ने का एक नया तरीका।
मौजूदा ज्ञान की हानि को न्यूनतम करते हुए लक्ष्य भाषा के प्रदर्शन में सुधार (औसतन 8%)।
व्यापक पुनःप्रशिक्षण के बिना लागत-प्रभावी ढंग से बहुभाषी एलएलएम कार्यक्रम के निर्माण की संभावना प्रस्तुत करना।
Limitations:
कुवैन मॉडल अपेक्षाकृत छोटा है (1.5 बिलियन पैरामीटर), इसलिए बड़े मॉडलों पर लागू होने पर इसका प्रदर्शन अनिश्चित है।
विभिन्न भाषाओं और विशिष्ट भाषा युग्मों में सामान्यीकरण पर आगे अनुसंधान की आवश्यकता है।
प्रस्तावित विधि की प्रभावशीलता प्रयुक्त ओपन सोर्स मॉडल और लक्ष्य भाषा की विशेषताओं के आधार पर भिन्न हो सकती है।
👍