Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FunGraph : graphiques de scène 3D prenant en compte les fonctionnalités pour l'interaction avec les scènes à l'aide du langage

Created by
  • Haebom

Auteur

Dennis Rotondi, Fabio Scaparro, Hermann Blum, Kai O. Arras

Contour

Cet article vise à développer une représentation graphique de scène 3D identifiant l'emplacement et l'utilisation des éléments d'interaction fonctionnels, permettant ainsi aux robots d'interagir directement avec leur environnement. Au lieu de s'appuyer sur une résolution traditionnelle au niveau objet, nous nous concentrons sur la détection et le stockage d'objets à une résolution plus fine, en nous concentrant sur leur signification fonctionnelle. Pour pallier la rareté des données et les difficultés liées à la capture de caractéristiques détaillées d'objets à l'aide de capteurs robotisés, nous exploitons les ressources 3D existantes pour générer des données 2D et entraîner des détecteurs, améliorant ainsi le pipeline standard de génération de graphes de scène 3D. Les résultats expérimentaux démontrent que notre approche atteint des performances de segmentation des éléments fonctionnels comparables à celles des modèles 3D de pointe et permet des associations sémantiques fonctionnelles pilotées par tâches avec une précision supérieure aux solutions existantes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle représentation graphique de scène 3D qui identifie l'emplacement et l'utilisation des éléments d'interaction fonctionnels.
Amélioration de l'interaction robot-environnement grâce à la détection et au stockage d'objets à haute résolution.
Amélioration des performances du pipeline de génération de graphiques de scènes 3D grâce à l'augmentation des données 2D.
Segmentation des éléments fonctionnels et liaison sémantique fonctionnelle orientée tâche pour atteindre des performances de pointe.
Limitations:
Difficulté à capturer les caractéristiques détaillées des objets à l'aide de capteurs robotisés.
Manque de données au-delà de la détection au niveau de l’instance.
Utilisation d'une gamme limitée de ressources 3D.
👍