Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Agentes múltiples basados en modelos de lenguaje amplios para la respuesta visual a preguntas basadas en el conocimiento

Created by
  • Haebom

Autor

Zhongjian Hu, Peng Yang, Bing Li, Zhenqi Wang

Describir

Este artículo propone un marco de votación multiagente para abordar los problemas del uso autónomo de herramientas externas y la falta de trabajo en equipo en los métodos existentes de respuesta visual a preguntas (VQA) basada en modelos de lenguaje a gran escala (LLM). Inspirados por la tendencia humana a responder directamente a preguntas conocidas y a utilizar herramientas como buscadores para preguntas desconocidas, diseñamos tres agentes basados en LLM con diferentes capacidades y decidimos si usar herramientas externas en función de las capacidades de cada agente. La respuesta final se obtiene votando las respuestas de cada agente. Los resultados experimentales con los conjuntos de datos OK-VQA y A-OKVQA muestran que nuestro marco mejora el rendimiento en 2,2 y 1,0, respectivamente, en comparación con los métodos existentes.

Takeaways, Limitations

Takeaways:
Destacamos la importancia de utilizar herramientas externas y colaboración en VQA basado en LLM y proponemos un marco de votación de múltiples agentes para implementar esto de manera efectiva.
El excelente desempeño del marco propuesto fue verificado a través de resultados experimentales.
Proponemos un enfoque novedoso para mejorar el rendimiento de LLM imitando los métodos humanos de resolución de problemas.
Limitations:
Se necesita más investigación para explorar la generalización del diseño de agentes y las estrategias de asignación de herramientas del marco propuesto.
Se necesitan más experimentos con diferentes tipos de conjuntos de datos VQA y herramientas externas.
Se necesita una investigación más sofisticada sobre los mecanismos de interacción y comunicación entre agentes.
👍