Bài báo này nhấn mạnh rằng mặc dù các tác nhân đa phương thức dựa trên các mô hình nền tảng quy mô lớn đang phát triển nhanh chóng, tiềm năng của giao tiếp dựa trên ngôn ngữ giữa các tác nhân trong các tác vụ cộng tác vẫn bị bỏ qua phần lớn. Điều này làm nổi bật một khoảng cách quan trọng trong việc hiểu hiệu quả của nó trong các triển khai thực tế, đặc biệt là trong giao tiếp giữa người với người. Các tiêu chuẩn đánh giá tác nhân hiện có không giải quyết được các khía cạnh chính của giao tiếp và cộng tác giữa các tác nhân, đặc biệt là trong các tình huống mà các tác nhân có quyền truy cập thông tin không bình đẳng và phải làm việc cùng nhau để hoàn thành các nhiệm vụ vượt quá khả năng cá nhân của họ. Để thu hẹp khoảng cách này, bài báo này trình bày COMMA, một tiêu chuẩn đánh giá câu đố mới được thiết kế để đánh giá hiệu suất cộng tác của các hệ thống đa tác nhân đa phương thức thông qua giao tiếp ngôn ngữ. Tiêu chuẩn COMMA cung cấp một đánh giá toàn diện về bốn loại năng lực chính của tác nhân trong môi trường cộng tác giao tiếp bằng cách cung cấp nhiều loại câu đố đa phương thức. Kết quả cho thấy những điểm yếu đáng ngạc nhiên trong các mô hình tiên tiến, bao gồm các mô hình độc quyền mạnh mẽ và các mô hình suy luận như GPT-4o và o4-mini. Nhiều mô hình suy luận quá trình tư duy, chẳng hạn như R1-Onevision và LLaVA-CoT, có hiệu suất kém hơn so với các đường cơ sở ngẫu nhiên trong quá trình cộng tác giữa các tác nhân, cho thấy các lĩnh vực tăng trưởng tiềm năng để cải thiện khả năng giao tiếp.