Cet article souligne que les modèles basés sur Transformer manquent encore de la généralité et de l'adaptabilité requises pour la coordination homme-IA. En examinant les faiblesses de la tâche ARC-AGI, nous décelons des différences en matière de généralisation constructive et d'adaptation de nouvelles règles, et affirmons que la résolution de ces lacunes nécessite un pipeline d'inférence repensé et son évaluation. Nous proposons trois axes de recherche : un pipeline de représentation symbolique pour la généralité constructive, une boucle d'inférence interactive basée sur la rétroaction pour l'adaptabilité, et une augmentation des tâches au moment du test qui équilibre ces deux caractéristiques. Enfin, nous démontrons comment les outils d'évaluation d'ARC-AGI peuvent être utilisés pour suivre les progrès en matière de généralité symbolique, d'adaptabilité basée sur la rétroaction et de robustesse au niveau des tâches, guidant ainsi les recherches futures sur la coordination homme-IA robuste.