दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SPARE: स्वचालित प्रक्रिया पर्यवेक्षण और पुरस्कार मॉडलिंग के लिए संदर्भ-निर्देशित मूल्यांकन के साथ एकल-पास एनोटेशन

Created by
  • Haebom

लेखक

एमडी इम्बेसैट हसन रिज़वी, ज़ियाओदान झू, इरीना गुरेविच

रूपरेखा

यह शोधपत्र सिंगल-पास एनोटेशन विद रेफरेंस-गाइडेड इवैल्यूएशन (SPARE) प्रस्तुत करता है, जो एक नवीन संरचित ढाँचा है जो संदर्भ समाधानों और समाधान चरणों को एक ही पीढ़ी में संरेखित करता है और स्पष्ट अनुमान के माध्यम से सटीकता निर्धारित करता है। इस चुनौती का समाधान करने के लिए, हम चार विविध डेटासेट पर ऑफ़लाइन सुदृढीकरण अधिगम के माध्यम से प्रक्रिया क्षतिपूर्ति मॉडल (PRM) के प्रशिक्षण और मॉडलों को परिष्कृत करने में SPARE की प्रभावशीलता प्रदर्शित करते हैं: गणितीय तर्क (GSM8K, MATH), बहु-चरणीय प्रश्नोत्तर (MuSiQue-Ans), और स्थानिक तर्क (SpaRP)। ProcessBench पर, SPARE मौजूदा विधियों की तुलना में काफी कम प्रशिक्षण नमूनों के साथ बेहतर प्रदर्शन और डेटा दक्षता प्राप्त करता है, और MCTS-आधारित विधियों की तुलना में प्रतिस्पर्धी प्रदर्शन और गति में वृद्धि प्रदर्शित करता है। परिशुद्धता-स्मरण विश्लेषण MCTS दृष्टिकोणों के साथ पूरक विशेषताओं को प्रकट करता है, जो एनसेम्बल विधियों की क्षमता का सुझाव देता है।

Takeaways, Limitations

Takeaways:
SPARE, LLM अनुमान में स्वचालित चरण-दर-चरण पर्यवेक्षण के लिए एक व्यावहारिक और मापनीय समाधान प्रदान करता है।
मानव-लेबल या अन्य सिंथेटिक डेटा (डेटा दक्षता) का उपयोग करके पारंपरिक तरीकों की तुलना में काफी कम डेटा के साथ उच्च प्रदर्शन प्राप्त करें।
एमसीटीएस-आधारित विधियों की तुलना में, यह प्रतिस्पर्धी प्रदर्शन और 2.3x गति सुधार प्रदान करता है।
इसमें एमसीटीएस-आधारित विधियों के साथ पूरक विशेषताएं हैं, जो एनसेम्बल तकनीकों के माध्यम से प्रदर्शन में सुधार की संभावना का सुझाव देती हैं।
Limitations:
इस शोधपत्र में SPARE के Limitations का विशेष रूप से उल्लेख नहीं किया गया है। Limitations को स्पष्ट करने के लिए और प्रयोगों या विश्लेषणों की आवश्यकता है।
चूंकि प्रदर्शन का मूल्यांकन केवल एक विशिष्ट प्रकार की अनुमान समस्या के लिए किया गया था, इसलिए अन्य प्रकार की समस्याओं के लिए सामान्यीकरण प्रदर्शन के लिए आगे के अध्ययन की आवश्यकता है।
👍