दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

फिनएजेंटबेंच: वित्तीय प्रश्नोत्तर में एजेंटिक पुनर्प्राप्ति के लिए एक बेंचमार्क डेटासेट

Created by
  • Haebom

लेखक

चानयोल चोई, जिहून क्वोन, एलेजांद्रो लोपेज़-लीरा, चाएवून किम, मिनजाए किम, जुनेहा ह्वांग, जेसियन हा, होजुन चोई, सुयेओल युन, योंगजिन किम, योंगजे ली

रूपरेखा

यह शोधपत्र FinAgentBench प्रस्तुत करता है, जो वित्तीय क्षेत्र में बहु-चरणीय अनुमान का उपयोग करके सूचना पुनर्प्राप्ति के मूल्यांकन हेतु एक व्यापक मानक है। मौजूदा सूचना पुनर्प्राप्ति विधियाँ अक्सर कम सटीकता से ग्रस्त होती हैं क्योंकि उन्हें अर्थगत समानता के अलावा दस्तावेज़ संरचना और डोमेन-विशिष्ट ज्ञान के बारे में सूक्ष्म अनुमानों की आवश्यकता होती है। FinAgentBench में S&P-100 सूचीबद्ध कंपनियों के 3,429 विशेषज्ञ-टिप्पणीबद्ध उदाहरण शामिल हैं और यह एक LLM एजेंट की (1) उम्मीदवारों के बीच सबसे प्रासंगिक दस्तावेज़ प्रकारों की पहचान करने और (2) चयनित दस्तावेज़ों में प्रमुख वाक्यांशों का सटीक रूप से पता लगाने की क्षमता का मूल्यांकन करता है। यह शोधपत्र संदर्भगत बाधाओं को दूर करने के लिए दो अनुमान चरणों को स्पष्ट रूप से अलग करता है, अत्याधुनिक मॉडलों का मूल्यांकन करता है, और दर्शाता है कि लक्ष्य-निर्देशित फ़ाइन-ट्यूनिंग एजेंट पुनर्प्राप्ति प्रदर्शन में उल्लेखनीय सुधार कर सकती है। FinAgentBench वित्त में जटिल, डोमेन-विशिष्ट कार्यों पर पुनर्प्राप्ति-संचालित LLM व्यवहार के अध्ययन के लिए एक आधार प्रदान करता है। स्वीकृति मिलने पर, हम डेटासेट को सार्वजनिक रूप से जारी करेंगे और इसे संपूर्ण एसएंडपी 500 और उससे आगे तक विस्तारित करने की योजना बनाएंगे।

Takeaways, Limitations

Takeaways:
हम फिनएजेंटबेंच प्रस्तुत करते हैं, जो वित्त में बहु-स्तरीय तर्क के माध्यम से सूचना पुनर्प्राप्ति के मूल्यांकन के लिए पहला बड़े पैमाने का बेंचमार्क है।
एलएलएम एजेंटों की दस्तावेज़ प्रकार पहचान और कुंजी वाक्यांश निष्कर्षण क्षमताओं के मूल्यांकन के लिए एक व्यवस्थित ढांचा प्रदान करना।
लक्ष्य-उन्मुखी फाइन-ट्यूनिंग के माध्यम से एलएलएम-आधारित सूचना पुनर्प्राप्ति प्रदर्शन में सुधार की संभावना का सुझाव देना।
वित्त से परे जटिल डोमेन-विशिष्ट कार्यों के लिए लागू अनुसंधान आधार की स्थापना करना।
Limitations:
वर्तमान में इसमें केवल S&P-100 कंपनियों का डेटा शामिल है, इसे S&P 500 और उससे आगे तक विस्तारित करने की आवश्यकता है।
पेपर स्वीकार होने के बाद डेटासेट को सार्वजनिक किया जाना निर्धारित है, लेकिन वर्तमान में यह उपलब्ध नहीं है।
मूल्यांकित मॉडलों का प्रकार और संख्या सीमित हो सकती है।
👍