Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

COGITAO : un cadre de raisonnement visuel pour étudier la compositionnalité et la généralisation

Created by
  • Haebom

Auteur

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager, Stefan Gerber, Lukas Tuggener, Benjamin Grewe

Contour

COGITAO est un framework de génération de données modulaire et extensible, ainsi qu'un benchmark conçu pour étudier systématiquement la compositionnalité et la généralisation dans le domaine de la vision. Inspiré du problème ARC-AGI, il construit des tâches basées sur des règles qui appliquent un ensemble de transformations aux objets d'un environnement de grille. Il prend en charge des configurations à profondeur ajustable pour 28 transformations interopérables et offre un contrôle étendu sur les paramètres de grille et les propriétés des objets. Cette flexibilité permet de générer des millions de règles de tâches uniques (bien plus que les jeux de données existants) avec une difficulté variable et une génération d'échantillons par règle pratiquement illimitée. Des expériences de référence avec des modèles de vision de pointe démontrent que malgré d'excellentes performances spécifiques au domaine, COGITAO ne parvient systématiquement pas à se généraliser à de nouvelles combinaisons d'éléments familiers. COGITAO est entièrement open source, y compris l'ensemble du code et des jeux de données, afin de soutenir les recherches en cours dans ce domaine.

Takeaways, Limitations

Takeaways:
Fournir un nouveau cadre de référence et de génération de données pour étudier le constructivisme et la généralisabilité.
Créez des tâches basées sur des règles qui sont beaucoup plus grandes et plus diversifiées que les ensembles de données traditionnels.
Présenter clairement les limites de la constructibilité et de la capacité de généralisation des modèles de vision de pointe.
Fourni en open source, contribuant à l'activation de la recherche connexe.
Limitations:
La recherche se limite actuellement au domaine visuel.
En raison de sa forte dépendance aux opérations basées sur des règles, il peut présenter des limites dans la résolution de problèmes complexes dans le monde réel.
Il est difficile d’évaluer pleinement toutes les possibilités de COGITAO sur la base des seuls résultats expérimentaux de base présentés.
👍