Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SIFThinker : mise au point d'images spatialement conscientes pour le raisonnement visuel

Created by
  • Haebom

Auteur

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

Contour

Afin de pallier les limites des modèles linguistiques multimodaux à grande échelle (MLLM), qui peinent encore à gérer des tâches visuelles complexes (par exemple, la compréhension spatiale et la perception fine), cet article présente SIFThinker, un cadre de réflexion spatialement conscient et imagé qui imite la perception visuelle humaine. SIFThinker croise des cadres englobants à profondeur améliorée avec le langage naturel pour permettre la modification attentionnelle et la focalisation sur les régions de l'image. À l'aide d'une stratégie d'inférence rétro-expansion-avant, nous construisons un processus de pensée image-texte pour la supervision au niveau du processus, à partir duquel nous construisons ensuite le jeu de données SIF-50K. De plus, nous proposons GRPO-SIF, un paradigme d'apprentissage par renforcement intégrant des preuves visuelles à profondeur améliorée, pour entraîner les modèles à modifier et focaliser dynamiquement sur les régions pertinentes pour les invites. Les résultats expérimentaux démontrent que SIFThinker surpasse les méthodes de pointe en matière de compréhension spatiale et de perception visuelle fine, tout en maintenant ses performances générales.

Takeaways, Limitations

Takeaways:
Démontrer l'efficacité des mécanismes de modification de l'attention et de focalisation de la région de l'image grâce à l'intersection de cadres de délimitation améliorés en profondeur et du langage naturel.
Nous présentons l'efficacité de la supervision au niveau du processus et de la construction de l'ensemble de données SIF-50K à l'aide d'une stratégie d'inférence vers l'avant-extension vers l'arrière.
Démonstration de la supériorité d'un pipeline d'inférence intégré basé sur l'apprentissage par renforcement via GRPO-SIF.
Une combinaison réussie d'une meilleure compréhension spatiale et d'une performance de perception visuelle à grain fin, tout en maintenant les performances générales.
Limitations:
Un examen plus approfondi de la taille et de la diversité de l’ensemble de données SIF-50K est nécessaire.
Une analyse du coût de calcul et de l’efficacité d’apprentissage du GRPO-SIF est nécessaire.
Une évaluation supplémentaire des performances de généralisation sur différents types de tâches visuelles est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’applicabilité et la généralisabilité à d’autres architectures MLLM.
👍