Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Razonamiento de gráficos de escena guiados por esquemas basado en un sistema de modelos de lenguaje grande multiagente

Created by
  • Haebom

Autor

Yiye Chen, Harpreet Sawhney, Nicholas Gyde , Yanan Jian, Jack Saunders, Patricio Vela, Ben Lundell

Describir

Este artículo presenta un grafo de escena como una representación ambiental estructurada y serializable para el razonamiento espacial basado en un modelo de lenguaje a gran escala (LLM). Proponemos SG², un marco iterativo de inferencia de grafos de escena basado en esquemas y basado en un LLM multiagente. Cada agente consta de dos módulos: un módulo de razonador (Reasoner), que planifica tareas abstractas y genera consultas de información gráfica, y un módulo de recuperación (Retriever), que extrae información gráfica relevante mediante la escritura de código basado en las consultas. Estos dos módulos colaboran iterativamente para permitir la inferencia secuencial y la atención adaptativa a la información gráfica. Un esquema de grafo de escena presentado a ambos módulos agiliza los procesos de inferencia y recuperación y guía su colaboración. Esto elimina la necesidad de presentar todos los datos del grafo al LLM, reduciendo así la posibilidad de alucinaciones debido a información irrelevante. Los experimentos en varios entornos simulados demuestran que el marco propuesto supera a los enfoques existentes basados en LLM y a las estrategias básicas de razonamiento mientras se recupera, basadas en herramientas y con un solo agente, en tareas de planificación y respuesta a preguntas numéricas.

Takeaways, Limitations

Takeaways:
Mejora del rendimiento de la inferencia espacial de LLM a través de un marco de inferencia iterativo basado en LLM multiagente.
Reducir el problema de las alucinaciones y aumentar la eficiencia de la inferencia en LLM aprovechando el esquema de gráficos de escena.
Rendimiento superior en comparación con los métodos de agente único existentes verificados en múltiples entornos de simulación.
Demostró un desempeño efectivo en tareas de planificación y respuesta a preguntas numéricas.
Limitations:
Se necesitan más investigaciones para determinar la generalización del marco propuesto.
Se requiere verificación de aplicabilidad para varios tipos de gráficos de escena y entornos complejos.
Se necesitan estudios de evaluación del desempeño y aplicabilidad en entornos del mundo real.
Se necesita más investigación sobre estrategias de colaboración eficientes entre LLM de múltiples agentes.
👍