[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

VAR-MATH: प्रतीकात्मक बहु-उदाहरण बेंचमार्क के माध्यम से बड़े भाषा मॉडल में वास्तविक गणितीय तर्क की जांच

Created by
  • Haebom

लेखक

जियान याओ, रैन चेंग, के चेन टैन

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) के प्रदर्शन मूल्यांकन में आने वाली समस्याओं की पहचान करता है जो सुदृढीकरण अधिगम (RL) के माध्यम से गणितीय तर्क क्षमता में सुधार दर्शाते हैं, और इन समस्याओं के समाधान के लिए एक नवीन मूल्यांकन ढाँचा, VAR-MATH, प्रस्तावित करता है। मौजूदा मूल्यांकन विधियों की समस्याओं में बेंचमार्क संदूषण और मूल्यांकन की कमज़ोरी शामिल है, और VAR-MATH संख्यात्मक समस्याओं को प्रतीकात्मक टेम्पलेट्स में परिवर्तित करके और उन्हें हल करने के लिए कई उदाहरणों की आवश्यकता करके सुसंगत अनुमान को लागू करके इन समस्याओं को कम करता है। जब AMC23 और AIME24 बेंचमार्क को VAR-MATH का उपयोग करके रूपांतरित किया जाता है, तो RL से प्रशिक्षित मॉडलों का प्रदर्शन काफ़ी कम हो जाता है, जिससे पता चलता है कि मौजूदा RL विधियाँ सतही अनुमानों पर निर्भर करती हैं और विशिष्ट संख्यात्मक स्वरूपों से आगे सामान्यीकरण करने में विफल रहती हैं।

____T35332_____, ____T35333_____

Takeaways:
मौजूदा आरएल-आधारित एलएलएम की गणितीय तर्क क्षमता के मूल्यांकन की सीमाओं को स्पष्ट रूप से प्रस्तुत करें।
बेंचमार्क संदूषण और मूल्यांकन भेद्यता मुद्दों को संबोधित करने के लिए एक नवीन मूल्यांकन ढांचा, VAR-MATH, प्रस्तुत किया गया है।
VAR-MATH से पता चलता है कि RL-प्रशिक्षित मॉडल सतही अनुमान पर निर्भर करते हैं।
गणितीय तर्क क्षमताओं के अधिक कठोर और सामान्यीकृत मूल्यांकन के महत्व पर बल दिया गया।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या VAR-MATH को सभी प्रकार की गणितीय तर्क समस्याओं पर लागू किया जा सकता है।
VAR-MATH को लागू करने के लिए समस्या परिवर्तन प्रक्रिया की जटिलता और लागत पर विचार किया जाना चाहिए।
यह निर्धारित करने के लिए आगे विश्लेषण की आवश्यकता है कि क्या VAR-MATH द्वारा मूल्यांकित मॉडलों के प्रदर्शन में गिरावट केवल सतही अनुमान के कारण है।
👍