Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SPGrasp : Synthèse spatio-temporelle de saisie pilotée par invite dans des scènes dynamiques

Created by
  • Haebom

Auteur

Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

Contour

SPGrasp est un nouveau framework pour la synthèse interactive de préhension en temps réel d'objets dynamiques. Afin de relever les défis des méthodes existantes, qui peinent à obtenir simultanément une inférence à faible latence et une promptabilité, nous présentons une méthode qui étend SAMv2 à l'estimation de la préhension des flux vidéo. En intégrant les invites utilisateur et le contexte spatio-temporel, nous permettons une interaction en temps réel avec une latence de bout en bout pouvant atteindre 59 ms, tout en garantissant la cohérence temporelle des objets dynamiques. Nous obtenons une précision élevée (respectivement 90,6 % et 93,8 %) sur les jeux de données OCID et Jacquard, et sur le jeu de données GraspNet-1Billion, nous atteignons une précision de 92,0 % avec une latence d'image de 73,1 ms, soit une amélioration de 58,5 % par rapport au modèle de pointe précédent. Lors d'expériences avec 13 objets en mouvement réels, nous obtenons un taux de réussite de 94,8 %, démontrant que notre approche résout efficacement le compromis entre latence et interactivité dans la synthèse de préhension dynamique.

Takeaways, Limitations

Takeaways:
ÉTend SAMv2 pour permettre la synthèse de préhension interactive en temps réel pour les objets dynamiques.
Obtenez à la fois une faible latence (jusqu'à 59 ms) et une grande précision en intégrant les invites utilisateur et le contexte spatio-temporel.
Vitesse et précision améliorées vérifiées expérimentalement par rapport aux modèles les plus performants existants.
Praticité prouvée grâce à un taux de réussite élevé (94,8 %) dans des environnements réels.
Limitations:
ÉTant donné qu’il s’agit d’un résultat d’évaluation des performances pour un ensemble de données spécifique, des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation sur d’autres ensembles de données ou environnements.
La robustesse à diverses situations dans des environnements réels (par exemple, changements d’éclairage, mouvements d’objets complexes) nécessite des recherches supplémentaires.
Avec un temps de traitement de 73,1 ms par image, il peut ne pas être suffisant pour les tâches qui nécessitent des mouvements extrêmement rapides.
👍