Dans cet article, nous analysons les raisons pour lesquelles Vision Transformer (ViT) est moins performant dans le benchmark ARC (Abstract Reasoning Corpus) et présentons un modèle ViTARC amélioré. Le ViT existant échoue dans la plupart des tâches ARC, même après un entraînement avec un million d'exemples, en raison du manque de capacité de représentation de l'architecture ViT. En réponse, nous proposons ViTARC, qui introduit une représentation des entrées au niveau du pixel, une tokenisation spatiale et un codage de position basé sur les objets par segmentation automatique. ViTARC atteint des taux de résolution proches de 100 % dans plus de la moitié des 400 tâches ARC publiques avec uniquement l'apprentissage supervisé, ce qui suggère qu'un biais inductif approprié est important pour le raisonnement visuel abstrait, même avec des données abondantes et une cartographie sans bruit.