यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र बड़े पैमाने पर भाषा मॉडल (LLM) के प्रोग्राम संश्लेषण और गणितीय तर्क प्रदर्शन में सुधार के लिए खुले लाइसेंस के तहत दो नए डेटासेट (स्वैलोकोड और स्वैलोमैथ) प्रस्तुत करता है। स्वैलोकोड चार-चरण पाइपलाइन (वाक्यविन्यास सत्यापन, शैली फ़िल्टरिंग और LLM पुनर्लेखन) के माध्यम से The-Stack-v2 से पायथन कोड स्निपेट को बेहतर बनाता है ताकि 16.1 बिलियन टोकन का उच्च-गुणवत्ता वाला डेटासेट तैयार किया जा सके। स्वैलोमैथ 2.3 बिलियन टोकन का डेटासेट तैयार करने के लिए Finemath-4+ डेटासेट को बेहतर बनाता है, अनावश्यक भागों को हटाता है, संदर्भ को पुनर्स्थापित करता है और संक्षिप्त तरीके से समाधान प्रक्रिया का पुनर्निर्माण करता है। हम स्वैलोकोड और स्वैलोमैथ के साथ Llama-3.1-8B मॉडल को आगे प्रशिक्षित करते हैं, और HumanEval, HumanEval+, GSM8K और MATH बेंचमार्क पर महत्वपूर्ण प्रदर्शन सुधार प्रदर्शित करते हैं। हम प्रत्येक पाइपलाइन चरण के योगदान का विश्लेषण करने के लिए प्रयोग भी करते हैं। सभी डेटासेट, संकेत और चेकपॉइंट पुनरुत्पादनीय अनुसंधान का समर्थन करने के लिए सार्वजनिक रूप से उपलब्ध हैं।
____T30840_____, ____T30841_____
•
Takeaways:
◦
हम डेटासेट तैयार करने की एक नई विधि प्रस्तुत करते हैं जो निम्न-गुणवत्ता वाले डेटा में सुधार करके LLM प्रदर्शन को बेहतर बनाने में योगदान देती है।
◦
हमने प्रयोगात्मक रूप से प्रदर्शित किया है कि यह स्वैलोकोड और स्वैलोमैथ डेटासेट का उपयोग करके प्रोग्राम संश्लेषण और गणितीय तर्क में एलएलएम प्रदर्शन में महत्वपूर्ण सुधार करता है।
◦
सार्वजनिक रूप से उपलब्ध डेटासेट, प्रॉम्प्ट और चेकपॉइंट्स के माध्यम से एलएलएम विशेषज्ञता में पुनरुत्पादनीय अनुसंधान और पूर्व-प्रशिक्षण की उन्नति में योगदान दें।
◦
डेटासेट निर्माण पाइपलाइन के प्रत्येक चरण के योगदान विश्लेषण के माध्यम से एक प्रभावी डेटा सफाई रणनीति प्रस्तुत करना।
•
Limitations:
◦
यह एक विशिष्ट प्रोग्रामिंग भाषा (पायथन) और गणितीय समस्या समाधान पर केंद्रित है, इसलिए अन्य क्षेत्रों में इसके सामान्यीकरण पर और अधिक शोध की आवश्यकता है।
◦
डेटासेट निर्माण प्रक्रिया की जटिलता और कम्प्यूटेशनल लागत पर विचार करें।
◦
एलएलएम पुनर्लेखन प्रक्रिया के दौरान उत्पन्न होने वाले संभावित पूर्वाग्रहों और त्रुटियों की पहचान करने के लिए अतिरिक्त समीक्षा की आवश्यकता है।