Este artículo propone un marco de votación multiagente para abordar los problemas del uso autónomo de herramientas externas y la falta de trabajo en equipo en los métodos existentes de respuesta visual a preguntas (VQA) basada en modelos de lenguaje a gran escala (LLM). Inspirados por la tendencia humana a responder directamente a preguntas conocidas y a utilizar herramientas como buscadores para preguntas desconocidas, diseñamos tres agentes basados en LLM con diferentes capacidades y decidimos si usar herramientas externas en función de las capacidades de cada agente. La respuesta final se obtiene votando las respuestas de cada agente. Los resultados experimentales con los conjuntos de datos OK-VQA y A-OKVQA muestran que nuestro marco mejora el rendimiento en 2,2 y 1,0, respectivamente, en comparación con los métodos existentes.