भाषा की समृद्ध रूपात्मक विशेषताओं के कारण अरबी पाठ का डायक्रिटाइजेशन प्राकृतिक भाषा प्रसंस्करण में एक सतत चुनौती बनी हुई है। इस पत्र में, हम Sadeed प्रस्तुत करते हैं, जो एक डिकोडर-ओनली भाषा मॉडल है जिसे Kuwain 1.5B Hennara et al. [2025] पर परिष्कृत किया गया है, जो एक विविध अरबी कॉर्पस पर प्रशिक्षित एक कॉम्पैक्ट मॉडल है। Sadeed को कठोर डेटा सफाई और मानकीकरण प्रक्रियाओं के माध्यम से उत्पन्न सावधानीपूर्वक चयनित, उच्च-गुणवत्ता वाले डायक्रिटाइज्ड ग्रंथों वाले डेटासेट पर परिष्कृत किया गया है। कम कम्प्यूटेशनल संसाधनों का उपयोग करने के बावजूद, Sadeed मालिकाना बड़े पैमाने के भाषा मॉडल की तुलना में प्रतिस्पर्धी परिणाम प्राप्त करता है और समान डोमेन में प्रशिक्षित मौजूदा मॉडलों से बेहतर प्रदर्शन करता है। इसके अलावा, यह पत्र अरबी डायक्रिटाइजेशन के लिए वर्तमान बेंचमार्किंग प्रथाओं में प्रमुख कमियों को उजागर करता है सदीद और सदीदडायक-25 अरबी एनएलपी अनुप्रयोगों को आगे बढ़ाने के लिए एक ठोस आधार प्रदान करते हैं, जिसमें मशीन अनुवाद, भाषण संश्लेषण और भाषा सीखने के उपकरण शामिल हैं।