यह शोधपत्र इस बात पर प्रकाश डालता है कि बड़े पैमाने के आधारभूत मॉडलों पर आधारित मल्टीमॉडल एजेंटों के तीव्र विकास के बावजूद, सहयोगी कार्यों में एजेंटों के बीच भाषा-आधारित संचार की क्षमता को काफी हद तक अनदेखा किया गया है। यह वास्तविक दुनिया में, विशेष रूप से मानव-से-मानव संचार में, इसकी प्रभावशीलता को समझने में एक महत्वपूर्ण अंतर को उजागर करता है। मौजूदा एजेंट बेंचमार्क, अंतर-एजेंट संचार और सहयोग के प्रमुख पहलुओं को संबोधित करने में विफल रहते हैं, विशेष रूप से उन परिदृश्यों में जहाँ एजेंटों की सूचना तक असमान पहुँच होती है और उन्हें अपनी व्यक्तिगत क्षमताओं से परे कार्यों को पूरा करने के लिए मिलकर काम करना पड़ता है। इस अंतर को पाटने के लिए, यह शोधपत्र COMMA प्रस्तुत करता है, जो एक नया पज़ल बेंचमार्क है जिसे भाषा संचार के माध्यम से मल्टीमॉडल मल्टी-एजेंट प्रणालियों के सहयोगी प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया है। COMMA बेंचमार्क विभिन्न प्रकार की मल्टीमॉडल पज़ल प्रदान करके संचार सहयोग वातावरण में एजेंट क्षमताओं की चार प्रमुख श्रेणियों का व्यापक मूल्यांकन प्रदान करता है। परिणाम अत्याधुनिक मॉडलों में आश्चर्यजनक कमज़ोरियों को उजागर करते हैं, जिनमें शक्तिशाली स्वामित्व वाले मॉडल और GPT-4o और o4-mini जैसे अनुमान मॉडल शामिल हैं। कई विचार प्रक्रिया अनुमान मॉडल, जैसे कि R1-Onevision और LLaVA-CoT, अंतर-एजेंट सहयोग में यादृच्छिक आधार रेखाओं से कम प्रदर्शन करते हैं, जो संचार क्षमताओं में सुधार के लिए संभावित विकास क्षेत्रों का संकेत देते हैं।