OmniPlay est un nouveau benchmark pour l'évaluation de l'intelligence des modèles d'agents interactifs exploitant diverses informations sensorielles. Pour surmonter les limites des benchmarks existants, il intègre diverses modalités, notamment visuelles, auditives et temporelles, et propose un environnement de jeu interactif. Composé de cinq environnements de jeu, il crée des interactions et des conflits entre les modalités afin d'évaluer les capacités de raisonnement intermodal de l'agent. L'évaluation de six modèles multimodaux de premier plan a révélé des performances surhumaines sur des tâches de mémoire haute résolution, mais des échecs significatifs sur des tâches exigeant un raisonnement robuste et une planification stratégique. Cette vulnérabilité provient d'un mécanisme de fusion fragile, qui se dégrade rapidement en cas de conflit de modalités. De plus, il a mis en évidence le paradoxe du « moins, c'est plus », où la suppression d'informations sensorielles améliore paradoxalement les performances. Par conséquent, la recherche sur une IA robuste nécessite plus qu'une simple mise à l'échelle ; elle doit fournir une solution claire pour la fusion synergique.