OmniPlay es un nuevo punto de referencia para evaluar la inteligencia de modelos de agentes interactivos que aprovechan diversa información sensorial. Para superar las limitaciones de los puntos de referencia existentes, integra diversas modalidades, como información visual, auditiva y temporal, y proporciona un entorno de juego interactivo. Compuesto por cinco entornos de juego, crea interacciones y conflictos entre modalidades para evaluar las capacidades de razonamiento intermodal del agente. La evaluación de seis modelos multimodales líderes reveló un rendimiento excepcional en tareas de memoria de alta resolución, pero fallos significativos en tareas que requieren razonamiento robusto y planificación estratégica. Esta vulnerabilidad se debe a un mecanismo de fusión frágil, que presenta una rápida degradación del rendimiento cuando las modalidades entran en conflicto. Además, descubrió la paradoja de "menos es más", donde la eliminación de información sensorial mejora paradójicamente el rendimiento. Por lo tanto, la investigación sobre IAG robusta requiere más que un simple escalamiento; debe proporcionar una solución clara para la fusión sinérgica.