Cet article propose un cadre de vote multi-agents pour résoudre les problèmes d'utilisation autonome d'outils externes et de manque de collaboration dans les méthodes existantes de réponse visuelle aux questions (VQA) basées sur un modèle de langage à grande échelle (LLM). Inspirés par la tendance humaine à répondre directement aux questions familières et à utiliser des outils tels que les moteurs de recherche pour les questions moins familières, nous concevons trois agents LLM dotés de capacités différentes et décidons d'utiliser ou non des outils externes en fonction des capacités de chaque agent. La réponse finale est obtenue en votant sur les réponses de chaque agent. Les résultats expérimentaux sur les jeux de données OK-VQA et A-OKVQA montrent que notre cadre proposé améliore les performances de 2,2 et 1,0 respectivement par rapport aux méthodes existantes.