Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

JARVIS: Un marco de razonamiento neurosimbólico de sentido común para agentes conversacionales encarnados

Created by
  • Haebom

Autor

Kaizhi Zheng, Kaiwen Zhou, Jing Gu, Yue Fan, Jialu Wang, Zonglin Di, Xuehai He, Xin Eric Wang

Describir

Este artículo propone JARVIS, un marco de inferencia simbólico neuronal de sentido común para construir agentes conversacionales corporizados que realizan tareas del mundo real. Para superar las limitaciones de los métodos simbólicos existentes y los modelos de aprendizaje profundo de extremo a extremo, utilizamos un modelo de lenguaje a gran escala (LLM) para adquirir representaciones simbólicas para la comprensión del lenguaje y la planificación de subobjetivos, y construimos mapas semánticos a partir de observaciones visuales. El módulo simbólico realiza la planificación de subobjetivos y la generación de acciones con base en el sentido común a nivel de tarea y acción. Los resultados experimentales utilizando el conjunto de datos TEACh demuestran que JARVIS logra un rendimiento de vanguardia en tres tareas corporizadas basadas en diálogo (EDH, TfD y TATC), mejorando significativamente la tasa de éxito en la tarea EDH del 6,1% al 15,8%. Además, analizamos sistemáticamente los factores clave que afectan el rendimiento de la tarea y demostramos un rendimiento superior incluso en entornos de pequeña escala. Además, obtuvimos el primer lugar en el Alexa Prize SimBot Public Benchmark Challenge.

Takeaways, Limitations

Takeaways:
Demostramos que la combinación de modelos de lenguaje a gran escala y razonamiento simbólico puede mejorar el rendimiento y la interpretabilidad de los agentes de implementación conversacional.
Se demostró aplicabilidad práctica al lograr un rendimiento de última generación en el conjunto de datos TEACh y ganar el primer lugar en el Alexa Prize SimBot Public Benchmark Challenge.
También muestra un rendimiento excelente en un entorno de aprendizaje con un número reducido de disparos.
Proporciona un análisis sistemático de los factores que afectan el desempeño de la tarea.
Limitations:
Dependencia de LLM: depende del rendimiento de LLM, y las limitaciones de LLM pueden afectar el rendimiento de JARVIS.
Dependencia de los datos: si bien el modelo funciona bien en el conjunto de datos TEACh, su rendimiento de generalización en otros conjuntos de datos requiere más investigación.
Limitaciones de la definición y expresión del sentido común: Los tipos de sentido común utilizados y los métodos de expresión pueden ser limitados, y es necesario integrar un sentido común más abundante y diverso.
Dificultades en las aplicaciones del mundo real: se necesita más investigación para abordar completamente la complejidad y la incertidumbre del mundo real.
👍