दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MASS: बड़े भाषा मॉडल के पूर्व प्रशिक्षण के लिए कौशल ग्राफ़ के माध्यम से गणितीय डेटा चयन

Created by
  • Haebom

लेखक

जियाझेंग ली, लू यू, किंग कुई, झिकियांग झांग, जून झोउ, यानफैंग ये, चुक्सू झांग

रूपरेखा

इस शोधपत्र में, हम गणितीय अनुमान के क्षेत्र में बड़े पैमाने पर भाषा मॉडल (LLM) के पूर्व-प्रशिक्षण के लिए गणितीय डेटा चयन ढाँचा, MASS (कौशल ग्राफ का उपयोग करके गणितीय डेटा चयन ढाँचा) प्रस्तावित करते हैं। पारंपरिक डेटा चयन विधियों के विपरीत, हम एक कौशल ग्राफ का निर्माण करते हैं जो गणित और अनुमान प्रक्रिया की अनूठी विशेषताओं पर विचार करके गणितीय कौशल और उनके अंतर्संबंधों को कैप्चर करता है। इस ग्राफ का उपयोग करके, हम लक्ष्य डेटासेट को गुणवत्ता स्कोर प्रदान करते हैं और LLM को पूर्व-प्रशिक्षण देने के लिए शीर्ष-रैंक वाले डेटा सबसेट का चयन करते हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि MASS विभिन्न मॉडल आकारों (1B और 7B) और पूर्व-प्रशिक्षण डेटासेट (वेब ​​डेटा और सिंथेटिक डेटा) पर कुशल और प्रभावी है। MASS-चयनित सबसेट के साथ प्रशिक्षित मॉडल मूल डेटासेट के साथ प्रशिक्षित मॉडल के समान प्रदर्शन प्राप्त करते हैं जबकि प्रशिक्षण टोकन की संख्या में 50% और 70% की उल्लेखनीय कमी होती है। इसके अलावा, जब समान संख्या में टोकन के साथ प्रशिक्षित किया जाता है, तो MASS-चयनित डेटा के साथ प्रशिक्षित मॉडल मूल डेटासेट के साथ प्रशिक्षित मॉडल की तुलना में क्रमशः 3.3% और 5.9% बेहतर प्रदर्शन करते हैं ।

Takeaways, Limitations

Takeaways:
हम गणितीय अनुमान के क्षेत्र में एलएलएम पूर्व-प्रशिक्षण की दक्षता और प्रभावशीलता में सुधार करने के लिए एक नवीन डेटा चयन ढांचा, MASS, प्रस्तुत करते हैं।
MASS प्रशिक्षण टोकन की संख्या को 70% तक कम करते हुए समतुल्य या बेहतर प्रदर्शन सक्षम करता है।
गणितीय विवरण ग्राफ़ का उपयोग करके डोमेन-विशिष्ट डेटा चयन विधियों की उपयोगिता का प्रदर्शन करना।
Limitations:
MASS गणितीय तर्क के क्षेत्र में विशिष्ट है, तथा अन्य क्षेत्रों में इसकी सामान्यता के लिए आगे अध्ययन की आवश्यकता है।
चूंकि प्रौद्योगिकी ग्राफ की सटीकता और पूर्णता सीधे MASS के प्रदर्शन को प्रभावित करती है, इसलिए प्रौद्योगिकी ग्राफ निर्माण पद्धति में सुधार की आवश्यकता हो सकती है।
उपयोग किए गए संदर्भ डेटासेट की गुणवत्ता से प्रदर्शन प्रभावित हो सकता है। विभिन्न संदर्भ डेटासेट पर आगे के प्रयोगों की आवश्यकता है।
👍