[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

BEARCUBS: कंप्यूटर का उपयोग करने वाले वेब एजेंटों के लिए एक बेंचमार्क

Created by
  • Haebom

लेखक

यिक्सियाओ सॉन्ग, कैथरीन थाई, चाऊ मिन्ह फाम, यापेई चांग, माजिन नदाफ, मोहित अय्यर

रूपरेखा

इस शोधपत्र में, हम BEARCUBS प्रस्तुत करते हैं, जो वास्तविक वेब परिवेशों में वेब एजेंटों की सूचना प्राप्ति क्षमता के मूल्यांकन हेतु एक नया मानक है। BEARCUBS में 111 सूचना प्राप्ति प्रश्न शामिल हैं, और मौजूदा मानकों के विपरीत, इसके लिए वास्तविक वेब पृष्ठों और विभिन्न इंटरमॉडल इंटरैक्शन (जैसे, वीडियो समझ, 3D नेविगेशन) की आवश्यकता होती है। मानव प्रयोग के परिणाम दर्शाते हैं कि प्रश्नों की कठिनाई उचित है (84.7% सटीकता), जबकि अत्याधुनिक वेब एजेंट कम सटीकता (23.4% तक) दिखाते हैं। यह विश्वसनीय सूचना स्रोतों और मजबूत मल्टीमॉडल क्षमताओं के चयन के महत्व पर बल देता है। वेब एजेंट अनुसंधान में योगदान देने के लिए BEARCUBS को निरंतर अद्यतन किया जाता रहेगा।

Takeaways, Limitations

Takeaways:
वास्तविक दुनिया के वेब वातावरण में वेब एजेंटों के प्रदर्शन का मूल्यांकन करने के लिए एक नया बेंचमार्क BEARCUBS प्रस्तुत किया जा रहा है
मौजूदा मानदंडों की सीमाओं पर काबू पाना और विभिन्न तौर-तरीकों के बीच परस्पर क्रिया की आवश्यकता पर बल देना
अत्याधुनिक वेब एजेंटों के खराब प्रदर्शन के कारणों की पहचान करना और उन्हें सुधारने के तरीके सुझाना (विश्वसनीय स्रोतों का चयन, मजबूत मल्टीमॉडल क्षमताएं)
वेब एजेंट अनुसंधान के लिए निरंतर मानक प्रदान करता है
Limitations:
वर्तमान बेंचमार्क (111) में प्रश्नों की संख्या अपेक्षाकृत कम हो सकती है।
BEARCUBS को निरंतर अद्यतन और रखरखाव की आवश्यकता होती है।
वेब परिवेश में परिवर्तन के साथ बेंचमार्क की उपयुक्तता की निरंतर समीक्षा की जानी चाहिए।
👍