Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Libérer le potentiel des MLLM dans la segmentation des expressions de référence via un décodeur de masque léger

Created by
  • Haebom

Auteur

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

Contour

Cet article propose MLLMSeg, une nouvelle approche du problème de segmentation par représentation de référence (RES). Les méthodes RES existantes s'appuient sur un compromis entre performance et coût, utilisant soit le modèle SAM (Segment Anything Model) fortement paramétré, soit des pipelines légers sans SAM qui sacrifient la précision. MLLMSeg atteint des performances élevées sans encodeur de vision supplémentaire en exploitant les caractéristiques visuelles détaillées déjà intégrées à l'encodeur de vision du modèle multimodal à grande échelle (MLLM). La prédiction précise des masques est obtenue grâce à un module de fusion de caractéristiques sémantiquement cohérentes et enrichies en détails (DSFF) qui combine les informations détaillées et sémantiques, et à un décodeur de masques léger (34 millions de paramètres). Les résultats expérimentaux démontrent que MLLMSeg surpasse les méthodes basées sur SAM et celles sans SAM, offrant un bon équilibre entre performance et coût.

Takeaways, Limitations

Takeaways:
Nous démontrons qu'en exploitant efficacement les capacités de détail visuel inhérentes à l'encodeur de vision de MLLM, des performances supérieures peuvent être obtenues sans encodeur de vision supplémentaire.
Améliorez la précision en fusionnant efficacement les détails et les informations sémantiques via le module DSFF.
Maintenez des performances élevées tout en réduisant les coûts de calcul grâce à un décodeur de masque léger.
Atteint des performances supérieures aux méthodes basées sur SAM et sans SAM.
Limitations:
Les performances de MLLMSeg peuvent dépendre des performances du MLLM utilisé.
Optimisé pour un MLLM spécifique, il existe une possibilité de dégradation des performances lorsqu'il est appliqué à d'autres MLLM.
Les performances de généralisation pour les arrière-plans complexes ou les expressions de référence ambiguës nécessitent une étude plus approfondie.
👍