दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कम संसाधन वाली भाषाओं के लिए जनरेटिव भाषा मॉडलिंग में डेटा की कमी पर काबू पाना: एक व्यवस्थित समीक्षा

Created by
  • Haebom

लेखक

जोश मैकगिफ़, निकोला एस. निकोलोव

रूपरेखा

यह पत्र निम्न-संसाधन भाषाओं (एलआरएल) के लिए जनरेटिव भाषा मॉडलिंग में डेटा की कमी की समस्या को दूर करने की रणनीतियों की पहली व्यवस्थित समीक्षा प्रस्तुत करता है। 54 अध्ययनों के आधार पर, हम जनरेटिव कार्यों में मोनोलिंगुअल डेटा संवर्द्धन, बैकट्रांसलेशन, बहुभाषी शिक्षण और प्रॉम्प्ट इंजीनियरिंग सहित तकनीकी दृष्टिकोणों की पहचान, वर्गीकरण और मूल्यांकन करते हैं। हम आर्किटेक्चर विकल्पों, भाषा परिवार अभ्यावेदन और मूल्यांकन विधियों में रुझानों का भी विश्लेषण करते हैं। हम ट्रांसफार्मर-आधारित मॉडलों पर अत्यधिक निर्भरता, कम संख्या में एलआरएल पर ध्यान केंद्रित करने और अध्ययनों में सुसंगत मूल्यांकन के अभाव पर प्रकाश डालते हुए निष्कर्ष निकालते हैं, और इन विधियों को एलआरएल की एक विस्तृत श्रृंखला तक विस्तारित करने के लिए सुझाव देते हैं और निष्पक्ष जनरेटिव भाषा प्रणालियों के निर्माण की चुनौतियों को रेखांकित करते हैं। अंततः, इस समीक्षा का उद्देश्य निम्न-संसाधन भाषा उपयोगकर्ताओं के लिए व्यापक एआई उपकरण बनाने में शोधकर्ताओं और डेवलपर्स का समर्थन करना है।

Takeaways, Limitations

Takeaways: कम संसाधन वाली भाषाओं के लिए जनरेटिव भाषा मॉडलिंग में डेटा की कमी की समस्या को हल करने के लिए विभिन्न तकनीकी तरीकों की व्यवस्थित समीक्षा और विश्लेषण करके, हम इस क्षेत्र में अनुसंधान की दिशाएँ सुझाते हैं। हम बहुभाषी शिक्षण और डेटा संवर्द्धन तकनीकों की प्रभावशीलता का मूल्यांकन करते हैं, और भविष्य के अनुसंधान के लिए दिशाएँ सुझाते हैं। यह कम संसाधन वाले भाषा उपयोगकर्ताओं के लिए व्यापक AI उपकरण बनाने में योगदान दे सकता है।
Limitations: ट्रांसफॉर्मर-आधारित मॉडलों पर अत्यधिक निर्भरता, विश्लेषण के लिए सीमित LRL, और अध्ययनों में सुसंगत मूल्यांकन मानदंडों का अभाव। अधिक विविध LRL और जनरेटिव कार्यों पर शोध की आवश्यकता है।
👍