COGITAO est un framework de génération de données modulaire et extensible, ainsi qu'un benchmark conçu pour étudier systématiquement la compositionnalité et la généralisation dans le domaine de la vision. Inspiré du problème ARC-AGI, il construit des tâches basées sur des règles qui appliquent un ensemble de transformations aux objets d'un environnement de grille. Il prend en charge des configurations à profondeur ajustable pour 28 transformations interopérables et offre un contrôle étendu sur les paramètres de grille et les propriétés des objets. Cette flexibilité permet de générer des millions de règles de tâches uniques (bien plus que les jeux de données existants) avec une difficulté variable et une génération d'échantillons par règle pratiquement illimitée. Des expériences de référence avec des modèles de vision de pointe démontrent que malgré d'excellentes performances spécifiques au domaine, COGITAO ne parvient systématiquement pas à se généraliser à de nouvelles combinaisons d'éléments familiers. COGITAO est entièrement open source, y compris l'ensemble du code et des jeux de données, afin de soutenir les recherches en cours dans ce domaine.