Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Multi-agents basés sur de grands modèles de langage pour la réponse visuelle aux questions basées sur la connaissance

Created by
  • Haebom

Auteur

Zhongjian Hu, Peng Yang, Bing Li, Zhenqi Wang

Contour

Cet article propose un cadre de vote multi-agents pour résoudre les problèmes d'utilisation autonome d'outils externes et de manque de collaboration dans les méthodes existantes de réponse visuelle aux questions (VQA) basées sur un modèle de langage à grande échelle (LLM). Inspirés par la tendance humaine à répondre directement aux questions familières et à utiliser des outils tels que les moteurs de recherche pour les questions moins familières, nous concevons trois agents LLM dotés de capacités différentes et décidons d'utiliser ou non des outils externes en fonction des capacités de chaque agent. La réponse finale est obtenue en votant sur les réponses de chaque agent. Les résultats expérimentaux sur les jeux de données OK-VQA et A-OKVQA montrent que notre cadre proposé améliore les performances de 2,2 et 1,0 respectivement par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous soulignons l’importance d’utiliser des outils externes et la collaboration dans le VQA basé sur LLM et proposons un cadre de vote multi-agents pour mettre en œuvre cela efficacement.
Les excellentes performances du cadre proposé ont été vérifiées par des résultats expérimentaux.
Nous proposons une nouvelle approche pour améliorer les performances du LLM en imitant les méthodes humaines de résolution de problèmes.
Limitations:
Des recherches supplémentaires sont nécessaires pour explorer la généralisabilité des stratégies de conception d’agents et d’allocation d’outils du cadre proposé.
D’autres expériences sont nécessaires sur différents types d’ensembles de données VQA et d’outils externes.
Des recherches plus sophistiquées sont nécessaires sur les mécanismes d’interaction et de communication entre les agents.
👍