Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

COMMA: Một chuẩn mực giao tiếp đa phương thức đa tác nhân

Created by
  • Haebom

Tác giả

Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu

Phác thảo

Bài báo này nhấn mạnh rằng mặc dù các tác nhân đa phương thức dựa trên các mô hình nền tảng quy mô lớn đang phát triển nhanh chóng, tiềm năng của giao tiếp dựa trên ngôn ngữ giữa các tác nhân trong các tác vụ cộng tác vẫn bị bỏ qua phần lớn. Điều này làm nổi bật một khoảng cách quan trọng trong việc hiểu hiệu quả của nó trong các triển khai thực tế, đặc biệt là trong giao tiếp giữa người với người. Các tiêu chuẩn đánh giá tác nhân hiện có không giải quyết được các khía cạnh chính của giao tiếp và cộng tác giữa các tác nhân, đặc biệt là trong các tình huống mà các tác nhân có quyền truy cập thông tin không bình đẳng và phải làm việc cùng nhau để hoàn thành các nhiệm vụ vượt quá khả năng cá nhân của họ. Để thu hẹp khoảng cách này, bài báo này trình bày COMMA, một tiêu chuẩn đánh giá câu đố mới được thiết kế để đánh giá hiệu suất cộng tác của các hệ thống đa tác nhân đa phương thức thông qua giao tiếp ngôn ngữ. Tiêu chuẩn COMMA cung cấp một đánh giá toàn diện về bốn loại năng lực chính của tác nhân trong môi trường cộng tác giao tiếp bằng cách cung cấp nhiều loại câu đố đa phương thức. Kết quả cho thấy những điểm yếu đáng ngạc nhiên trong các mô hình tiên tiến, bao gồm các mô hình độc quyền mạnh mẽ và các mô hình suy luận như GPT-4o và o4-mini. Nhiều mô hình suy luận quá trình tư duy, chẳng hạn như R1-Onevision và LLaVA-CoT, có hiệu suất kém hơn so với các đường cơ sở ngẫu nhiên trong quá trình cộng tác giữa các tác nhân, cho thấy các lĩnh vực tăng trưởng tiềm năng để cải thiện khả năng giao tiếp.

Takeaways, Limitations

Takeaways: Chúng tôi trình bày một chuẩn mực mới (COMMA) để đánh giá khả năng giao tiếp ngôn ngữ cộng tác của các hệ thống đa phương thức, đa tác tử. Nó phơi bày những điểm yếu trong khả năng cộng tác giữa các tác tử của các mô hình tiên tiến và đề xuất các hướng nghiên cứu trong tương lai. Đặc biệt, chúng tôi nhấn mạnh sự cần thiết phải cải thiện khả năng giao tiếp của các mô hình suy luận quy trình tư duy.
_____T279175____-: Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của bản thân chuẩn mực COMMA và khả năng áp dụng của nó vào các tình huống hợp tác khác nhau. Cần có thêm các thử nghiệm trên các mô hình khác ngoài các mô hình hiện đang được đánh giá. Nó có thể không phản ánh đầy đủ các tác vụ hợp tác phức tạp trong thế giới thực.
👍