Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

StitchFusion : tisser toutes les modalités visuelles pour améliorer la segmentation sémantique multimodale

Created by
  • Haebom

Auteur

Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li

Contour

Cet article explore la segmentation sémantique multimodale afin d'améliorer la précision de la segmentation dans les scènes complexes. Les méthodes existantes utilisent des modules de fusion de caractéristiques adaptés à des modalités spécifiques, ce qui limite la flexibilité des entrées et augmente le nombre de paramètres d'apprentissage. Pour y remédier, nous proposons StitchFusion, un framework de fusion modale simple mais efficace qui intègre directement des modèles pré-entraînés à grande échelle dans l'encodeur et la fusion de caractéristiques. Cette approche permet une fusion de caractéristiques multimodales et multi-échelles complète prenant en charge toutes les entrées modales visuelles. StitchFusion réalise l'intégration modale en partageant des informations visuelles multimodales lors de l'encodage. Pour améliorer l'échange d'informations entre les modalités, il introduit un module adaptateur multidirectionnel (MultiAdapter) permettant le transfert d'informations intermodales lors de l'encodage. En exploitant MultiAdapter pour propager les informations multi-échelles entre les encodeurs pré-entraînés, l'intégration des informations visuelles multimodales lors de l'encodage est obtenue. Les résultats expérimentaux démontrent que le modèle proposé atteint des performances de pointe sur quatre jeux de données de segmentation multimodale tout en minimisant le besoin de paramètres supplémentaires. De plus, l'intégration expérimentale du module de fusion de fonctionnalités (FFM) et du MultiAdapter existants démontre leurs propriétés complémentaires.

Takeaways, Limitations

Takeaways:
Nous proposons StitchFusion, un framework de segmentation sémantique multimodale simple et efficace.
Augmentez la flexibilité d’entrée et réduisez les paramètres de formation en exploitant directement les modèles pré-formés.
Transfert d'informations intermodal efficace et intégration d'informations multi-échelles grâce à MultiAdapter
Atteindre des performances de pointe sur quatre ensembles de données segmentées multimodales.
Vérification de la complémentarité avec les modules de fusion de fonctionnalités existants
Assurer la reproductibilité grâce au code ouvert
Limitations:
Il est possible que les performances de la méthode proposée soient biaisées sur un ensemble de données spécifique (une vérification des performances sur des ensembles de données supplémentaires est requise).
Manque d'explication détaillée de la conception et du réglage des paramètres de MultiAdapter (un processus de conception spécifique et une stratégie d'optimisation sont nécessaires)
Une analyse plus approfondie des performances et de l’efficacité dans les applications du monde réel est nécessaire.
👍