दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कॉमा: एक संचारी मल्टीमॉडल मल्टी-एजेंट बेंचमार्क

Created by
  • Haebom

लेखक

टिमोथी ओसोव्स्की, जिक्सुआन चेन, डेनियल मकबूल, ज़ेफ़ान कै, टायलर ब्रैडशॉ, जुन्जी हू

रूपरेखा

यह शोधपत्र इस बात पर प्रकाश डालता है कि बड़े पैमाने के आधारभूत मॉडलों पर आधारित मल्टीमॉडल एजेंटों के तीव्र विकास के बावजूद, सहयोगी कार्यों में एजेंटों के बीच भाषा-आधारित संचार की क्षमता को काफी हद तक अनदेखा किया गया है। यह वास्तविक दुनिया में, विशेष रूप से मानव-से-मानव संचार में, इसकी प्रभावशीलता को समझने में एक महत्वपूर्ण अंतर को उजागर करता है। मौजूदा एजेंट बेंचमार्क, अंतर-एजेंट संचार और सहयोग के प्रमुख पहलुओं को संबोधित करने में विफल रहते हैं, विशेष रूप से उन परिदृश्यों में जहाँ एजेंटों की सूचना तक असमान पहुँच होती है और उन्हें अपनी व्यक्तिगत क्षमताओं से परे कार्यों को पूरा करने के लिए मिलकर काम करना पड़ता है। इस अंतर को पाटने के लिए, यह शोधपत्र COMMA प्रस्तुत करता है, जो एक नया पज़ल बेंचमार्क है जिसे भाषा संचार के माध्यम से मल्टीमॉडल मल्टी-एजेंट प्रणालियों के सहयोगी प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया है। COMMA बेंचमार्क विभिन्न प्रकार की मल्टीमॉडल पज़ल प्रदान करके संचार सहयोग वातावरण में एजेंट क्षमताओं की चार प्रमुख श्रेणियों का व्यापक मूल्यांकन प्रदान करता है। परिणाम अत्याधुनिक मॉडलों में आश्चर्यजनक कमज़ोरियों को उजागर करते हैं, जिनमें शक्तिशाली स्वामित्व वाले मॉडल और GPT-4o और o4-mini जैसे अनुमान मॉडल शामिल हैं। कई विचार प्रक्रिया अनुमान मॉडल, जैसे कि R1-Onevision और LLaVA-CoT, अंतर-एजेंट सहयोग में यादृच्छिक आधार रेखाओं से कम प्रदर्शन करते हैं, जो संचार क्षमताओं में सुधार के लिए संभावित विकास क्षेत्रों का संकेत देते हैं।

Takeaways, Limitations

Takeaways: हम मल्टीमॉडल, मल्टी-एजेंट सिस्टम की सहयोगी भाषा संचार क्षमताओं के मूल्यांकन के लिए एक नया बेंचमार्क (COMMA) प्रस्तुत करते हैं। यह अत्याधुनिक मॉडलों की अंतर-एजेंट सहयोग क्षमताओं की कमज़ोरियों को उजागर करता है और भविष्य के अनुसंधान की दिशाएँ सुझाता है। विशेष रूप से, हम विचार प्रक्रिया अनुमान मॉडलों की संचार क्षमताओं में सुधार की आवश्यकता पर ज़ोर देते हैं।
Limitations: COMMA बेंचमार्क की सामान्यता और विभिन्न सहयोग परिदृश्यों में इसकी प्रयोज्यता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। वर्तमान में मूल्यांकित मॉडलों के अलावा अन्य मॉडलों पर अतिरिक्त प्रयोगों की आवश्यकता है। हो सकता है कि वे जटिल वास्तविक-विश्व सहयोग कार्यों को पूरी तरह से प्रतिबिंबित न करें।
👍