Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MoCHA : Raisonnement vision-langage avancé avec connecteur MoE et attention de groupe hiérarchique

Created by
  • Haebom

Auteur

Yuqi Pang, Bowen Yang, Yun Cao, Rong Fan, Xiaoyu Li, Chen He

Contour

MoCHA est un nouveau framework visuel proposé pour répondre aux coûts élevés d'apprentissage et d'inférence des modèles de langage à grande échelle (VLLM) et à la difficulté d'extraction des détails visuels. Il intègre quatre piliers de vision : CLIP, SigLIP, DINOv2 et ConvNeXt, pour extraire des caractéristiques visuelles complémentaires. Le module de connecteur de mélange d'experts clairsemés (MoECs) sélectionne dynamiquement des experts adaptés à différentes dimensions visuelles. De plus, il utilise l'attention de groupe hiérarchique (HGA) et des stratégies de filtrage adaptatif pour atténuer les informations visuelles redondantes ou sous-utilisées codées par le module MoECs. MoCHA a été entraîné sur des LLM de premier plan, tels que Phi2-2.7B et Vicuna-7B, et ses performances ont été évaluées sur différents benchmarks. MoCHA a surpassé les modèles pondérés ouverts de pointe sur plusieurs tâches. Plus précisément, comparé au CuMo (Mistral-7B), le MoCHA (Phi2-2.7B) a démontré une amélioration de 3,25 % de la réduction des hallucinations sur l'échelle de traitement prédictif des images (POPE) et une amélioration de 153 points de l'instruction visuelle sur l'échelle d'évaluation multi-moyennes (MME). Des études d'ablation complémentaires ont confirmé l'efficacité et la robustesse des MoEC et de l'HGA proposés.

Takeaways, Limitations

Takeaways:
Un nouveau cadre est présenté pour résoudre efficacement le problème du coût élevé du VLLM.
Amélioration des performances grâce à l'extraction de fonctionnalités visuelles complémentaires.
Améliorer l'efficacité de l'utilisation des informations visuelles grâce aux modules MoEC et HGA.
Hallucinations réduites et performances améliorées dans le suivi des instructions visuelles.
Atteindre les performances SOTA sur différents benchmarks.
Limitations:
Des recherches supplémentaires sont nécessaires pour explorer la généralisabilité du cadre proposé.
Il est nécessaire d’évaluer les dépendances sur des LLM spécifiques et la compatibilité avec d’autres LLM.
Des évaluations comparatives plus diversifiées et plus complètes sont nécessaires.
Manque d'explication détaillée du réglage des paramètres des modules MoEC et HGA.
👍