दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

भाषा मॉडल प्रशिक्षण और मूल्यांकन में सिंथेटिक दीर्घ-संदर्भ डेटा निर्माण के लिए मॉड्यूलर तकनीकें

Created by
  • Haebom

लेखक

सेगनरासन सुब्रमण्यन, अभिज्ञा वर्मा

रूपरेखा

यह शोधपत्र एक संश्लेषित दीर्घ-पाठ संदर्भ डेटा निर्माण ढाँचे का प्रस्ताव करता है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) की दीर्घ-पाठ इनपुट को संसाधित करने और अनुमान लगाने की क्षमता को बढ़ाता है। उच्च-गुणवत्ता, विविध और सत्यापन योग्य दीर्घ-पाठ संदर्भ डेटासेट की कमी को दूर करने के लिए, हम प्रॉम्प्ट-आधारित एलएलएम इंटरैक्शन के माध्यम से डेटा निर्माण हेतु एक मॉड्यूलर और विस्तारणीय ढाँचा प्रस्तुत करते हैं। यह ढाँचा विभिन्न शिक्षण और संरेखण उद्देश्यों (एसएफटी, डीपीओ, और जीआरपीओ) का समर्थन करता है और चार डेटा निर्माण प्रतिमानों को शामिल करता है: बहु-दौर वार्तालाप, दस्तावेज़-आधारित इनपुट-आउटपुट युग्म, सत्यापन योग्य कमांड-प्रतिक्रिया कार्य, और दीर्घ-पाठ अनुमान उदाहरण। टेम्पलेट-आधारित प्रॉम्प्टिंग, एक मॉडल-स्वतंत्र आर्किटेक्चर, और मेटाडेटा-समृद्ध आउटपुट, स्केलेबल, नियंत्रणीय और उद्देश्य-विशिष्ट डेटासेट के निर्माण को सुगम बनाते हैं।

Takeaways, Limitations

Takeaways:
एक नवीन रूपरेखा प्रस्तुत की गई है जो उच्च गुणवत्ता वाले दीर्घ-पाठ संदर्भ डेटासेट की कमी की समस्या को हल करने में योगदान दे सकती है।
एसएफटी, डीपीओ और जीआरपीओ जैसे विभिन्न शिक्षण और संरेखण उद्देश्यों का समर्थन करके एलएलएम प्रदर्शन में सुधार की संभावना का सुझाव देना।
मॉड्यूलर और स्केलेबल आर्किटेक्चर विभिन्न प्रकार के दीर्घ-प्रारूप संदर्भ डेटा के सृजन को सक्षम बनाता है।
टेम्पलेट-आधारित प्रॉम्प्टिंग और मेटाडेटा के साथ अपनी डेटा निर्माण प्रक्रिया पर दक्षता और नियंत्रण में सुधार करें।
Limitations:
उत्पन्न आंकड़ों की गुणवत्ता और विविधता के मात्रात्मक मूल्यांकन का अभाव।
शीघ्र इंजीनियरिंग पर अत्यधिक निर्भर हो सकता है
वास्तविक एलएलएम प्रदर्शन में सुधार लाने में प्रस्तावित ढांचे की प्रभावशीलता के प्रायोगिक सत्यापन का अभाव।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या निष्कर्ष किसी विशिष्ट एलएलएम के लिए विशिष्ट हैं और क्या उन्हें विभिन्न एलएलएम में सामान्यीकृत किया जा सकता है।
👍