दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सादीद: लघु भाषा मॉडल के माध्यम से अरबी विभक्तिकरण को आगे बढ़ाना

Created by
  • Haebom

लेखक

ज़ीना अल्दालाल, सारा क्रोउफ़, खलील हेन्नारा, मोहम्मद मोताइस्म हामेद, मुहम्मद ह्रेडेन, सफ़वान अलमोधायन

रूपरेखा

भाषा की समृद्ध रूपात्मक विशेषताओं के कारण अरबी पाठ का डायक्रिटाइजेशन प्राकृतिक भाषा प्रसंस्करण में एक सतत चुनौती बनी हुई है। इस पत्र में, हम Sadeed प्रस्तुत करते हैं, जो एक डिकोडर-ओनली भाषा मॉडल है जिसे Kuwain 1.5B Hennara et al. [2025] पर परिष्कृत किया गया है, जो एक विविध अरबी कॉर्पस पर प्रशिक्षित एक कॉम्पैक्ट मॉडल है। Sadeed को कठोर डेटा सफाई और मानकीकरण प्रक्रियाओं के माध्यम से उत्पन्न सावधानीपूर्वक चयनित, उच्च-गुणवत्ता वाले डायक्रिटाइज्ड ग्रंथों वाले डेटासेट पर परिष्कृत किया गया है। कम कम्प्यूटेशनल संसाधनों का उपयोग करने के बावजूद, Sadeed मालिकाना बड़े पैमाने के भाषा मॉडल की तुलना में प्रतिस्पर्धी परिणाम प्राप्त करता है और समान डोमेन में प्रशिक्षित मौजूदा मॉडलों से बेहतर प्रदर्शन करता है। इसके अलावा, यह पत्र अरबी डायक्रिटाइजेशन के लिए वर्तमान बेंचमार्किंग प्रथाओं में प्रमुख कमियों को उजागर करता है सदीद और सदीदडायक-25 अरबी एनएलपी अनुप्रयोगों को आगे बढ़ाने के लिए एक ठोस आधार प्रदान करते हैं, जिसमें मशीन अनुवाद, भाषण संश्लेषण और भाषा सीखने के उपकरण शामिल हैं।

Takeaways, Limitations

Takeaways:
छोटे पैमाने के मॉडलों का उपयोग करके मौजूदा बड़े पैमाने के मॉडलों के बराबर प्रदर्शन प्राप्त करना, जिससे कम्प्यूटेशनल संसाधन दक्षता में वृद्धि होगी।
कठोर डेटा सफाई और सामान्यीकरण प्रक्रियाओं के माध्यम से उच्च गुणवत्ता वाले डेटासेट का निर्माण करना।
अरबी ध्वन्यात्मक प्रतीक चिपकाने के कार्यों के लिए बेंचमार्किंग अभ्यास Limitations और एक नए बेंचमार्क SadeedDiac-25 की प्रस्तुति।
मशीन अनुवाद, भाषण संश्लेषण और भाषा सीखने के उपकरणों सहित विभिन्न अरबी एनएलपी अनुप्रयोगों के विकास में योगदान दिया।
Limitations:
यद्यपि हमने वर्तमान बेंचमार्किंग प्रथाओं की Limitations को इंगित किया है, यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या SadeedDiac-25 इन Limitations को पूरी तरह से संबोधित करता है।
संभावना यह है कि सादीड मॉडल का प्रदर्शन किसी विशिष्ट डेटासेट के प्रति पक्षपाती हो सकता है।
उपयोग किये गये डेटासेट के आकार और विविधता के विस्तृत विवरण का अभाव।
👍