दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

उपकरण-एकीकृत तर्क का विश्लेषण: एक अनुभवजन्य अध्ययन और विश्लेषण

Created by
  • Haebom

लेखक

युफेंग झाओ, जुन्नन लियू, होंगवेई लियू, डोंगशेंग झू, युआन शेन, सोंगयांग झांग, काई चेन

रूपरेखा

यह पत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम) के अनुमान प्रदर्शन में सुधार के लिए टूल-इंटीग्रेटेड इनफेरेंस (टीआईआर) की प्रभावशीलता का व्यापक मूल्यांकन करता है। एलएलएम की सीमाओं को दूर करने के लिए, जो पारंपरिक चेन ऑफ थॉट (सीओटी) विधियों का उपयोग करके सटीक गणना के साथ संघर्ष करते हैं, हम टीआईआर का लाभ उठाते हैं और रीज़नज़ू बेंचमार्क प्रस्तुत करते हैं, जिसमें नौ विविध अनुमान श्रेणियां शामिल हैं। इसके अलावा, हम अनुमान दक्षता के मूल्यांकन के लिए नए मेट्रिक्स का प्रस्ताव करते हैं: प्रदर्शन-जागरूक लागत (पीएसी) और प्रदर्शन-लागत वक्र (एयूसी-पीसीसी) के तहत क्षेत्र। प्रायोगिक परिणाम बताते हैं कि टीआईआर-आधारित मॉडल गणितीय और गैर-गणितीय दोनों कार्यों पर गैर-टीआईआर-आधारित मॉडल से बेहतर प्रदर्शन करते हैं।

Takeaways, Limitations

Takeaways:
हम प्रयोगात्मक रूप से प्रदर्शित करते हैं कि उपकरण-एकीकृत अनुमान (टीआईआर) एलएलएम की समग्र तर्क क्षमता में सुधार करता है।
टीआईआर की प्रभावशीलता की पुष्टि गणितीय और गैर-गणितीय दोनों समस्याओं में की गई।
प्रस्तावित नए मेट्रिक्स PAC और AUC-PCC अनुमान दक्षता के मूल्यांकन के लिए उपयोगी हैं।
टीआईआर एलएलएम में 'अतिचिंतन' को कम करता है और तर्क प्रक्रिया को अधिक कुशल बनाता है।
Limitations:
रीज़नज़ू बेंचमार्क की सामान्यीकरण और मापनीयता पर आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के उपकरणों और एलएलएम में टीआईआर की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
प्रस्तावित नए सूचकांक PAC और AUC-PCC की व्याख्या और उपयोग पर आगे अनुसंधान की आवश्यकता है।
👍