दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

परीक्षा-समय स्केलिंग के लिए परिणाम पुरस्कार मॉडल के साथ तार्किक तर्क

Created by
  • Haebom

लेखक

राम्या कीर्ति थातिकोंडा, रे बंटाइन, एहसान शेयरघी

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) की निगमनात्मक तर्क क्षमता में सुधार हेतु एक नवीन दृष्टिकोण प्रस्तुत करता है। परीक्षण समय विस्तार और परिणाम या प्रक्रिया क्षतिपूर्ति मॉडलों को मिलाकर किए गए पिछले शोध के आधार पर, हम निगमनात्मक तर्क के लिए विशिष्ट परिणाम क्षतिपूर्ति मॉडल (ORM) प्रस्तावित करते हैं। ORM को प्रशिक्षित करने के लिए, हम एकल और बहु-नमूनों का उपयोग करके विचार-श्रृंखला (CoT) के माध्यम से डेटा उत्पन्न करते हैं, और एक नवीन "प्रतिध्वनि निर्माण तकनीक" प्रस्तावित करते हैं जो अतिरिक्त प्रशिक्षण डेटा उत्पन्न करने के लिए LLM की त्रुटि प्रवृत्ति का उपयोग करती है। यह तकनीक पारंपरिक CoT विधियों की तुलना में अधिक विविध प्रकार की त्रुटियों वाले प्रशिक्षण डेटा उत्पन्न करती है। प्रायोगिक परिणाम दर्शाते हैं कि CoT और प्रतिध्वनि-संवर्धित डेटा से प्रशिक्षित ORM, FOLIO, JustLogic और ProverQA डेटासेट पर चार अलग-अलग LLM के प्रदर्शन को बेहतर बनाते हैं।

Takeaways, Limitations

Takeaways:
हम निगमनात्मक तर्क में एलएलएम प्रदर्शन को बेहतर बनाने के लिए नवीन परिणाम पुरस्कार मॉडल (ओआरएम) और प्रशिक्षण तकनीक प्रस्तुत करते हैं।
मौजूदा CoT विधियों की सीमाओं पर काबू पाना और इको जेनरेशन तकनीकों के माध्यम से विभिन्न त्रुटि प्रकारों वाले प्रशिक्षण डेटा उत्पन्न करना।
FOLIO, JustLogic, और ProverQA डेटासेट पर विभिन्न LLM के प्रदर्शन सुधारों का प्रयोगात्मक सत्यापन।
Limitations:
प्रतिध्वनि उत्पादन तकनीकों की सामान्यता और अन्य प्रकार की अनुमान समस्याओं पर उनकी प्रयोज्यता पर आगे अनुसंधान की आवश्यकता है।
ऐसी संभावना है कि प्रस्तावित ORMs के प्रदर्शन में सुधार विशिष्ट डेटासेट या LLMs तक सीमित हो सकता है।
विभिन्न प्रकार की त्रुटियों को व्यापक रूप से संबोधित करने के लिए अतिरिक्त डेटा संवर्द्धन तकनीकों की आवश्यकता है।
👍