दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

FLAMES: डेटा संश्लेषण पाइपलाइन के सूक्ष्म विश्लेषण के माध्यम से LLM गणित तर्क में सुधार

Created by
  • Haebom

लेखक

पार्कर सीगमिलर, कार्तिक मेहता, सौम्या साहा, चेनयांग ताओ, शेरीन ओराबी, अर्पित गुप्ता, टैगयंग चुंग, मोहित बंसल, नान्युन पेंग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की गणितीय तर्क क्षमताओं को बेहतर बनाने के लिए सिंथेटिक डेटा निर्माण रणनीतियों का एक व्यवस्थित अध्ययन प्रस्तुत करता है। पिछले अध्ययनों की भिन्न व्यवस्थाओं के कारण सिंथेटिक डेटा रणनीतियों की तुलना करने में आने वाली कठिनाइयों को दूर करने के लिए, हम एलएलएम गणितीय तर्क डेटा संश्लेषण आकलन के लिए ढाँचा (FLAMES) प्रस्तावित करते हैं। दस मौजूदा रणनीतियों और विभिन्न कारकों का प्रयोगात्मक विश्लेषण करके, हम सिंथेटिक डेटा की कठिनाई और विविधता के बीच इष्टतम संतुलन के बारे में अंतर्दृष्टि प्रदान करते हैं। विशेष रूप से, हम पाते हैं कि समस्या की जटिलता को बढ़ाने वाले डेटा एजेंट अधिकांश गणितीय मेट्रिक्स में सबसे अधिक सुधार प्रदान करते हैं। इसके अलावा, हम यह भी प्रदर्शित करते हैं कि सीमित डेटा निर्माण बजट के तहत, केवल विश्वसनीय समाधानों के बजाय अधिक समस्याओं को शामिल करना महत्वपूर्ण है। FLAMES प्रयोगों के परिणामों के आधार पर, हम दो नवीन डेटा संश्लेषण रणनीतियाँ डिज़ाइन करते हैं जो क्रॉस-डोमेन सामान्यीकरण और सुदृढ़ता में सुधार करती हैं, और FLAMES डेटासेट विकसित करते हैं, जो मौजूदा और नवीन रणनीतियों को जोड़ता है। FLAMES डेटासेट कई बेंचमार्क में मौजूदा डेटासेट से बेहतर प्रदर्शन करता है, जिनमें ओलंपियाडबेंच, कॉलेजमैथ, GSMPlus और MATH शामिल हैं। जब Qwen2.5-Math-7B मॉडल को FLAMES डेटासेट पर परिष्कृत किया गया, तो इसने MATH में 81.4% सटीकता प्राप्त की, जो Llama3 405B, GPT-4o और क्लाउड 3.5 सॉनेट से बेहतर प्रदर्शन था।

Takeaways, Limitations

Takeaways:
हम दर्शाते हैं कि समस्या की जटिलता बढ़ाने के लिए डेटा एजेंट एलएलएम के गणितीय तर्क प्रदर्शन को बेहतर बनाने में प्रभावी हैं।
सीमित डेटा उत्पादन बजट को देखते हुए, यह सुझाव दिया गया है कि समस्या की विश्वसनीयता की तुलना में समस्या की विविधता सुनिश्चित करना अधिक महत्वपूर्ण है।
GSM8K और MATH-आधारित सिंथेटिक डेटा प्रतिस्पर्धी बेंचमार्क (आसान से कठिन समस्याओं तक सामान्यीकरण) पर प्रदर्शन में सुधार लाते हैं।
नई डेटा संश्लेषण रणनीति और FLAMES डेटासेट के साथ मौजूदा डेटासेट पर बेहतर प्रदर्शन प्राप्त करना।
एक अपेक्षाकृत छोटा मॉडल (Qwen2.5-Math-7B) बड़े मॉडलों से बेहतर प्रदर्शन करता है।
Limitations:
FLAMES ढांचे की व्यापकता और अन्य प्रकार की समस्याओं पर इसकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
सिंथेटिक डेटा के लिए गुणवत्ता मूल्यांकन मानदंडों पर आगे चर्चा की आवश्यकता है।
चूंकि परिणाम एक विशिष्ट मॉडल और डेटासेट के लिए हैं, इसलिए अन्य मॉडलों या डेटासेटों के लिए सामान्यीकरण निर्धारित करने के लिए आगे सत्यापन की आवश्यकता है।
👍