Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réponse aux questions spatiales sur l'entrepôt avec LLM Agent

Created by
  • Haebom

Auteur

Hsiang-Wei Huang, Jen-Hao Cheng, Kuang-Ming Chen, Cheng-Yen Yang, Bahaa Alattar, Yi-Ru Lin, Pyongkun Kim, Sangwon Kim, Kwangju Kim, Chung-I Huang, Jenq-Neng Hwang

Contour

Cet article présente une approche efficace en termes de données pour améliorer les capacités de compréhension spatiale des modèles linguistiques multimodaux à grande échelle (MLLM) existants. Nous proposons un système d'agent LLM doté de capacités de raisonnement spatial robustes et avancées, capable de résoudre des tâches complexes de questions-réponses spatiales dans des environnements d'entrepôts intérieurs complexes. Ce système intègre de multiples outils, permettant à l'agent LLM d'effectuer un raisonnement spatial et de répondre à des questions spatiales complexes grâce à des interactions avec des outils API. Une évaluation approfondie du jeu de données de l'entrepôt d'intelligence spatiale Physical AI Spatial Intelligence Warehouse du 2025 AI City Challenge démontre que le système proposé atteint une précision et une efficacité élevées dans des tâches telles que la recherche d'objets, le comptage et l'estimation de distance. Le code source est disponible à l' adresse https://github.com/hsiangwei0903/SpatialAgent .

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche pour améliorer la compréhension spatiale du MLLM d’une manière efficace en termes de données.
Atteindre une précision et une efficacité élevées pour les tâches de réponse aux questions spatiales dans des environnements intérieurs complexes.
Intégration des capacités de raisonnement spatial et interaction avec divers outils API via le système d'agent LLM.
Vérification des performances grâce à des résultats expérimentaux utilisant l'ensemble de données AI City Challenge 2025.
Limitations:
Une évaluation plus approfondie des performances de généralisation du système proposé est nécessaire (peut-être en raison d’un manque de tests sur d’autres environnements ou ensembles de données).
Une analyse de dépendance est requise pour les caractéristiques des outils API et des ensembles de données utilisés.
Des recherches supplémentaires sont nécessaires sur la complexité et l’évolutivité du système.
Une validation supplémentaire est nécessaire pour une application dans des environnements commerciaux réels.
👍