दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

छोटे खुले मॉडल कम संसाधन वाले साहित्यिक अनुवाद में बड़े मॉडलों के साथ लगभग समानता प्राप्त करते हैं, वह भी बहुत कम लागत पर

Created by
  • Haebom

लेखक

मिहाई नाडास, लॉरा डायोसन, एंड्रिया टोमेस्कु, आंद्रेई पिस्कोरन

रूपरेखा

यह शोधपत्र TINYFABULIST अनुवाद ढाँचा (TF2) प्रस्तुत करता है, जो कम संसाधन वाली रोमानियाई भाषा में साहित्यिक अनुवाद के लिए एक एकीकृत ढाँचा है। TF2, डेटासेट निर्माण, फ़ाइन-ट्यूनिंग और मूल्यांकन के लिए एक एकीकृत ढाँचा है, जो एक संपीड़ित फ़ाइन-ट्यून्ड भाषा मॉडल (TF2-12B) और बड़े पैमाने के सिंथेटिक समानांतर डेटासेट (DS-TF2-EN-RO-3M और DS-TF2-EN-RO-15K) के निर्माण और प्रकाशन पर केंद्रित है। एक मौजूदा बड़े पैमाने के सिंथेटिक अंग्रेजी फ़ेबल डेटासेट (DS-TF1-EN-3M) के आधार पर, हम 15,000 उच्च-गुणवत्ता वाले रोमानियाई संदर्भ डेटा आइटम तैयार करते हैं और 12 अरब-पैरामीटर ओपन-वेटेड मॉडल पर निर्देशात्मक फ़ाइन-ट्यूनिंग और एडेप्टर कम्प्रेशन का उपयोग करके मॉडल को फ़ाइन-ट्यून करते हैं। मूल्यांकन कॉर्पस-स्तरीय BLEU और एक पाँच-आयामी LLM-आधारित मूल्यांकन मीट्रिक (सटीकता, प्रवाह, सुसंगतता, शैली और सांस्कृतिक अनुकूलन) को मिलाकर किया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि परिष्कृत मॉडल, सर्वश्रेष्ठ प्रदर्शन करने वाले बड़े पैमाने के स्वामित्व वाले मॉडलों के बराबर प्रवाह और प्रासंगिकता प्राप्त करता है, साथ ही खुला स्रोत, सुलभ और लागत प्रभावी भी बना रहता है। मॉडल, डेटासेट, स्क्रिप्ट और मूल्यांकन संकेत सभी सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
कम संसाधन वाली भाषाओं में साहित्यिक अनुवाद के लिए एक कुशल और पुनरुत्पादनीय पाइपलाइन प्रदान करना।
एक खुले मॉडल का उपयोग करते हुए, हम कम संसाधन वाली भाषाओं से सांस्कृतिक रूप से महत्वपूर्ण साहित्यिक सामग्री के अनुवाद को व्यापक रूप से अपनाने की संभावना प्रस्तुत करते हैं।
उच्च गुणवत्ता वाले, बड़े पैमाने पर सिंथेटिक डेटासेट जारी करके अनुसंधान को सक्षम बनाना।
एक हल्के मॉडल का विकास जो बड़े पैमाने पर स्वामित्व वाले मॉडलों के प्रदर्शन को टक्कर दे सके।
निर्देशात्मक फ़ाइन-ट्यूनिंग और एडाप्टर संपीड़न तकनीकों की प्रभावशीलता को मान्य करना।
Limitations:
क्योंकि यह सिंथेटिक डेटा पर निर्भर करता है, इसलिए यह वास्तविक दुनिया के साहित्यिक अनुवाद की जटिलता को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
चूंकि मूल्यांकन पैमाना एलएलएम-आधारित है, इसलिए एलएलएम की सीमाएं मूल्यांकन परिणामों को प्रभावित कर सकती हैं।
वर्तमान में यह अंग्रेजी-रोमानियाई अनुवादों तक सीमित है, तथा अन्य भाषा युग्मों में इसके सामान्यीकरण के लिए और अधिक शोध की आवश्यकता है।
12 बिलियन पैरामीटर मॉडल के लिए अभी भी महत्वपूर्ण संसाधनों की आवश्यकता होती है, इसलिए अधिक हल्के मॉडल का विकास आवश्यक हो सकता है।
👍