Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MRAG : Élucider l'espace de conception de la génération augmentée par récupération multimodale

Created by
  • Haebom

Auteur

Chan-Wei Hu, Yueqi Wang, Shuo Xing, Chia-Ju Chen, Suofei Feng, Ryan Rossi, Zhengzhong Tu

Contour

Cet article analyse systématiquement le pipeline de génération augmentée de récupération (RAG) pour améliorer les performances des modèles de langage visuel à grande échelle (LVLM). Les LVLM souffrent de limitations telles que des données d'entraînement statiques, des hallucinations et l'impossibilité de vérifier des preuves externes à jour. RAG atténue ces problèmes en accédant à une base de connaissances externe. Cet article examine individuellement la phase de récupération (configuration des modalités et stratégie de récupération), la phase de reclassement (atténuation des biais positionnels et stratégie d'amélioration des preuves pertinentes) et la phase de génération (comment intégrer les candidats récupérés). Nous proposons un cadre d'agent autoréflexif pour intégrer le reclassement et la génération. Nous obtenons une amélioration moyenne des performances de 5 % sans ajustement fin.

Takeaways, Limitations

Takeaways:
Nous présentons la première analyse systématique du pipeline RAG dans les LVLM.
Nous fournissons des stratégies optimales pour chaque étape de recherche, de reclassement et de génération.
Améliorez les performances grâce à un cadre d’agent intégré basé sur l’auto-réflexion.
Des améliorations significatives des performances (en moyenne 5 %) sont obtenues sans réglage fin.
Limitations:
ÉTant donné que ces résultats concernent des LVLM et des ensembles de données spécifiques, des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité.
L’évolutivité du cadre d’agent proposé et son potentiel pour divers domaines d’application doivent être évalués.
L’analyse quantitative de l’atténuation des hallucinations fait défaut.
Il peut y avoir un manque d’analyse détaillée de l’impact de la qualité et de la taille de la base de données de connaissances utilisée sur la performance.
👍