Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RAG itératif multimodal pour la connaissance et la réponse visuelle aux questions

Created by
  • Haebom

Auteur

Changin Choi, Wonseok Lee, Jungmin Ko, Wonjong Rhee

Contour

Cet article propose un cadre de génération augmentée de récupération itérative multimodale (MI-RAG) afin de pallier les limitations de performance des modèles linguistiques multimodaux à grande échelle (MLLM) pour les questions visuelles à forte intensité de connaissances nécessitant des connaissances externes. MI-RAG exploite les inférences pour améliorer la récupération et met à jour les inférences sur plusieurs modalités en fonction des connaissances nouvellement découvertes. À chaque itération, il génère dynamiquement plusieurs requêtes à partir de l'historique d'inférence accumulé, effectuant des recherches conjointes dans des bases de connaissances hétérogènes comprenant à la fois des connaissances visuelles et textuelles. Les connaissances nouvellement acquises sont intégrées à l'historique d'inférence pour améliorer la compréhension de manière itérative. Sur des benchmarks tels que Encyclopedic VQA, InfoSeek et OK-VQA, MI-RAG améliore significativement le rappel de la récupération et la précision des réponses, offrant une approche évolutive pour l'inférence constructive dans les VQA à forte intensité de connaissances.

Takeaways, Limitations

Takeaways:
Contribuer à l'amélioration des performances des réponses visuelles aux questions à forte intensité de connaissances dans les modèles linguistiques multimodaux à grande échelle.
L’intégration des connaissances par la recherche itérative et l’inférence permet d’obtenir des réponses plus précises et plus complètes.
Présentation d’un cadre extensible qui exploite efficacement les connaissances issues de diverses modalités.
Améliorations des performances vérifiées expérimentalement sur des benchmarks tels que Encyclopedic VQA, InfoSeek et OK-VQA.
Limitations:
Manque d’analyse du coût de calcul et du temps de traitement du cadre MI-RAG proposé.
Il est nécessaire d’évaluer les performances de généralisation pour différents types de bases de connaissances.
Des recherches supplémentaires sont nécessaires sur la possibilité de propagation des erreurs et sur les moyens de garantir la transparence du processus d’inférence.
Il existe une possibilité de biais envers certains types de bases de connaissances.
👍