Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

JARVIS : un cadre de raisonnement neuro-symbolique de bon sens pour les agents conversationnels incarnés

Created by
  • Haebom

Auteur

Kaizhi Zheng, Kaiwen Zhou, Jing Gu, Yue Fan, Jialu Wang, Zonglin Di, Xuehai He, Xin Eric Wang

Contour

Cet article propose JARVIS, un cadre d'inférence de sens commun symbolique neuronal pour la construction d'agents conversationnels incarnés exécutant des tâches du monde réel. Afin de surmonter les limites des méthodes symboliques existantes et des modèles d'apprentissage profond de bout en bout, nous utilisons un modèle de langage à grande échelle (LLM) pour acquérir des représentations symboliques pour la compréhension du langage et la planification des sous-objectifs, et construisons des cartes sémantiques à partir d'observations visuelles. Le module symbolique effectue ensuite la planification des sous-objectifs et la génération d'actions en fonction du sens commun au niveau des tâches et des actions. Les résultats expérimentaux obtenus à partir du jeu de données TEACh démontrent que JARVIS atteint des performances de pointe sur trois tâches incarnées basées sur le dialogue (EDH, TfD et TATC), améliorant significativement le taux de réussite de la tâche EDH de 6,1 % à 15,8 %. De plus, nous analysons systématiquement les facteurs clés affectant la performance des tâches et démontrons des performances supérieures, même dans des contextes de petite envergure. Nous avons également remporté la première place au concours public de référence Alexa Prize SimBot.

Takeaways, Limitations

Takeaways:
Nous démontrons que la combinaison de modèles de langage à grande échelle et de raisonnement symbolique peut améliorer les performances et l’interprétabilité des agents d’implémentation conversationnelle.
A démontré l'applicabilité pratique en obtenant des performances de pointe sur l'ensemble de données TEACh et en remportant la première place du Alexa Prize SimBot Public Benchmark Challenge.
Il montre également d'excellentes performances dans un environnement d'apprentissage à petit nombre de prises de vue.
Fournit une analyse systématique des facteurs affectant la performance des tâches.
Limitations:
Dépendance LLM : elle dépend des performances de LLM, et les limitations de LLM peuvent affecter les performances de JARVIS.
Dépendance des données : bien que le modèle fonctionne bien sur l'ensemble de données TEACh, ses performances de généralisation sur d'autres ensembles de données nécessitent des recherches supplémentaires.
Limites de la définition et de l’expression du sens commun : Les types de sens commun utilisés et les méthodes d’expression peuvent être limités, et il est nécessaire d’intégrer un sens commun plus abondant et plus diversifié.
Difficultés dans les applications du monde réel : des recherches supplémentaires sont nécessaires pour répondre pleinement à la complexité et à l’incertitude du monde réel.
👍