दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एसएलआर: स्केलेबल लॉजिकल रीजनिंग के लिए स्वचालित संश्लेषण

Created by
  • Haebom

लेखक

लुकास हेल्फ़, अहमद उमर, फेलिक्स फ्रेडरिक, एंटोनिया डब्ल्यू उस्ट, हिकारू शिंडो, रूपर्ट मिशेल, टिम वोयड्ट, पैट्रिक श्रामोव्स्की, वोल्फगैंग स्टैमर, क्रिस्टियन केर्स्टिंग

रूपरेखा

यह शोधपत्र स्केलेबल लॉजिकल रीजनिंग (एसएलआर) प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के व्यवस्थित मूल्यांकन और प्रशिक्षण के लिए एक संपूर्ण ढाँचा है। उपयोगकर्ता के कार्य विनिर्देश के आधार पर, एसएलआर स्वचालित रूप से (I) आगमनात्मक तर्क कार्यों के लिए निर्देशात्मक संकेत, (ii) मॉडल आउटपुट के लिए निष्पादन योग्य सत्यापन प्रोग्राम (सत्यापन योग्य पुरस्कारों के साथ), और (iii) संभावित आधारभूत सत्य नियम उत्पन्न करता है। यह प्रक्रिया पूरी तरह से स्वचालित और स्केलेबल है, इसके लिए किसी मानवीय एनोटेशन की आवश्यकता नहीं होती है, और यह कार्य की कठिनाई पर सटीक नियंत्रण प्रदान करता है। एसएलआर का उपयोग करके, हम एसएलआर-बेंच बनाते हैं, जो एक बेंचमार्क है जिसमें 19,000 संकेत होते हैं, जिन्हें बढ़ती हुई संबंधपरक, अंकगणितीय और पुनरावर्ती जटिलता के 20 पाठ्यक्रम स्तरों में व्यवस्थित किया गया है। बड़े पैमाने के मूल्यांकन दर्शाते हैं कि अत्याधुनिक एलएलएम वाक्य-रचना की दृष्टि से मान्य नियम आसानी से उत्पन्न कर देते हैं, लेकिन अक्सर सटीक तार्किक तर्क करने में विफल रहते हैं। हालाँकि हाल ही में, अनुमान लगाने वाले एलएलएम ने प्रदर्शन में सुधार किया है, लेकिन इनकी परीक्षण-समय गणना लागत बहुत अधिक है, जो 1,000 प्रॉम्प्ट के लिए $300 से भी अधिक है। अंततः, एसएलआर के माध्यम से पाठ्यक्रम सीखने ने लामा-3-8बी की एसएलआर-बेंच सटीकता को दोगुना कर दिया है, जो कि काफी कम गणना लागत पर जेमिनी-फ्लैश-थिंकिंग के बराबर के स्तर तक पहुँच गया है। इसके अलावा, यह अनुमान लगाने की क्षमता विभिन्न मौजूदा बेंचमार्क पर सामान्यीकृत होती है, जो डाउनस्ट्रीम अनुमान के लिए एसएलआर की प्रभावशीलता को उजागर करती है।

Takeaways, Limitations

Takeaways:
हम एसएलआर प्रस्तुत करते हैं, जो एलएलएम में तार्किक तर्क कौशल का आकलन करने और उसे बेहतर बनाने के लिए एक कुशल और मापनीय ढांचा है।
एक स्वचालित प्रणाली का निर्माण करना जो मानवीय हस्तक्षेप के बिना स्वचालित रूप से संकेत, सत्यापन कार्यक्रम और आधारभूत सत्य नियम उत्पन्न कर सके।
अनुभवजन्य रूप से यह प्रदर्शित किया गया कि पाठ्यक्रम सीखने के माध्यम से एलएलएम तर्क कौशल में काफी सुधार किया जा सकता है।
हम एलएलएम की अनुमान क्षमताओं का वस्तुनिष्ठ मूल्यांकन करने के लिए एसएलआर-बेंच नामक एक नया बड़े पैमाने का बेंचमार्क प्रदान करते हैं।
कम लागत पर मौजूदा शीर्ष प्रदर्शन करने वाले मॉडलों के समान प्रदर्शन प्राप्त करें।
हम यह प्रदर्शित करते हैं कि उन्नत अनुमान क्षमताएं विभिन्न बेंचमार्कों में सामान्यीकृत होती हैं।
Limitations:
वर्तमान में, एसएलआर-बेंच एक विशिष्ट प्रकार की तार्किक तर्क समस्या पर ध्यान केंद्रित करता है, और विभिन्न प्रकार की तर्क समस्याओं के लिए इसके प्रदर्शन को सामान्य बनाने के लिए आगे अनुसंधान की आवश्यकता है।
उच्च प्रदर्शन वाले एलएलएम के लिए परीक्षण समय की गणना की उच्च लागत अभी भी एक ऐसा क्षेत्र है जिसमें भविष्य में सुधार की आवश्यकता है।
चूंकि एसएलआर का प्रदर्शन विशिष्ट एलएलएम आर्किटेक्चर पर निर्भर हो सकता है, इसलिए विभिन्न आर्किटेक्चर पर आगे के प्रयोगों की आवश्यकता है।
👍