OmniPlay là một chuẩn mực mới để đánh giá trí thông minh của các mô hình tác nhân tương tác tận dụng thông tin cảm giác đa dạng. Để khắc phục những hạn chế của các chuẩn mực hiện có, nó tích hợp nhiều phương thức khác nhau, bao gồm thông tin thị giác, thính giác và thời gian, đồng thời cung cấp một môi trường trò chơi tương tác. Bao gồm năm môi trường trò chơi, nó tạo ra các tương tác và xung đột giữa các phương thức để đánh giá khả năng suy luận đa phương thức của tác nhân. Việc đánh giá sáu mô hình đa phương thức hàng đầu cho thấy hiệu suất vượt trội trong các tác vụ trí nhớ độ phân giải cao nhưng lại thất bại đáng kể trong các tác vụ đòi hỏi suy luận mạnh mẽ và lập kế hoạch chiến lược. Lỗ hổng này bắt nguồn từ cơ chế hợp nhất dễ vỡ, biểu hiện sự suy giảm hiệu suất nhanh chóng khi các phương thức xung đột. Hơn nữa, nó đã phát hiện ra nghịch lý "ít hơn là nhiều hơn", trong đó việc loại bỏ thông tin cảm giác lại cải thiện hiệu suất một cách nghịch lý. Do đó, nghiên cứu về AGI mạnh mẽ đòi hỏi nhiều hơn là việc mở rộng quy mô đơn giản; nó phải cung cấp một giải pháp rõ ràng cho sự hợp nhất mang tính hiệp đồng.