[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Aborder le corpus d'abstraction et de raisonnement avec les transformateurs de vision : l'importance de la représentation 2D, des positions et des objets

Created by
  • Haebom

Auteur

Wenhao Li, Yudong Xu, Scott Sanner, Elias Boutros Khalil

Contour

Dans cet article, nous analysons les raisons pour lesquelles Vision Transformer (ViT) est moins performant dans le benchmark ARC (Abstract Reasoning Corpus) et présentons un modèle ViTARC amélioré. Le ViT existant échoue dans la plupart des tâches ARC, même après un entraînement avec un million d'exemples, en raison du manque de capacité de représentation de l'architecture ViT. En réponse, nous proposons ViTARC, qui introduit une représentation des entrées au niveau du pixel, une tokenisation spatiale et un codage de position basé sur les objets par segmentation automatique. ViTARC atteint des taux de résolution proches de 100 % dans plus de la moitié des 400 tâches ARC publiques avec uniquement l'apprentissage supervisé, ce qui suggère qu'un biais inductif approprié est important pour le raisonnement visuel abstrait, même avec des données abondantes et une cartographie sans bruit.

Takeaways, Limitations

Takeaways:
Nous soulignons les limites du pouvoir expressif de l’architecture ViT et soulignons l’importance d’un biais inductif approprié pour le raisonnement visuel abstrait.
Le modèle ViTARC atteint des performances élevées même dans des conditions de données riches et de cartographie sans bruit, fournissant une nouvelle base pour la recherche d'inférence visuelle basée sur les transformateurs.
Nous démontrons que des techniques telles que la représentation d’entrée au niveau des pixels, la tokenisation spatialement consciente et le codage de position basé sur les objets sont efficaces pour améliorer les performances d’inférence visuelle.
Limitations:
Le modèle ViTARC est spécialisé pour le benchmark ARC, et ses performances de généralisation à d'autres tâches d'inférence visuelle nécessitent une étude plus approfondie.
Nous n’avons pas atteint une performance proche de 100 % sur toutes les tâches ARC (obtenue seulement dans plus de la moitié des tâches).
Des recherches supplémentaires sont nécessaires pour déterminer si les améliorations proposées sont applicables à d’autres architectures basées sur des transformateurs.
👍