Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Raisonnement de scène-graphe guidé par schéma basé sur un système de modèle de langage multi-agents de grande taille

Created by
  • Haebom

Auteur

Yiye Chen, Harpreet Sawhney, Nicholas Gyd e, Yanan Jian, Jack Saunders, Patricio Vela, Ben Lundell

Contour

Cet article présente un graphe de scène comme une représentation environnementale structurée et sérialisable pour le raisonnement spatial basé sur un modèle de langage à grande échelle (MLL). Nous proposons SG², un framework d'inférence de graphes de scènes itératif, basé sur des schémas et basé sur un LLM multi-agents. Chaque agent est composé de deux modules : un module de raisonnement (Reasoner), qui planifie des tâches abstraites et génère des requêtes d'informations graphiques, et un module de récupération (Retriever), qui extrait les informations graphiques pertinentes en écrivant du code basé sur les requêtes. Ces deux modules collaborent de manière itérative pour permettre l'inférence séquentielle et l'attention adaptative aux informations graphiques. Un schéma de graphe de scène présenté aux deux modules simplifie les processus d'inférence et de récupération et guide leur collaboration. Cela élimine la nécessité de présenter l'intégralité des données graphiques au LLM, réduisant ainsi le risque d'hallucinations dues à des informations non pertinentes. Des expériences dans divers environnements simulés démontrent que le framework proposé surpasse les approches LLM existantes et les stratégies de raisonnement-récupération basées sur des outils mono-agent pour les tâches numériques de réponse aux questions et de planification.

Takeaways, Limitations

Takeaways:
Amélioration des performances d'inférence spatiale du LLM grâce à un cadre d'inférence itératif basé sur le LLM multi-agent.
Réduire le problème d'hallucination et augmenter l'efficacité de l'inférence dans LLM en exploitant le schéma du graphe de scène.
Des performances supérieures par rapport aux méthodes à agent unique existantes vérifiées dans plusieurs environnements de simulation.
A démontré une performance efficace dans les tâches de réponse aux questions numériques et de planification.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre proposé.
La vérification de l’applicabilité est requise pour différents types de graphiques de scène et d’environnements complexes.
Des études d’évaluation des performances et d’applicabilité dans des environnements réels sont nécessaires.
Des recherches supplémentaires sont nécessaires sur les stratégies de collaboration efficaces entre les LLM multi-agents.
👍