Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

UST-SSM : Modèles d'espace d'état spatio-temporel unifiés pour la modélisation vidéo de nuages ​​de points

Created by
  • Haebom

Auteur

Peiming Li, Ziyi Wang, Yulin Yuan, Hong Liu, Xiangming Meng, Junsong Yuan, Mengyuan Liu

Contour

Cet article propose le modèle spatio-temporel unifié d'états-espaces (UST-SSM) pour résoudre le problème du chaos spatio-temporel dans les vidéos de nuages ​​de points. UST-SSM étend le modèle sélectif d'états-espaces (SSM) aux vidéos de nuages ​​de points et introduit la technique de balayage sélectif spatio-temporel (STSS), qui reconstruit les points chaotiques en séquences sémantiquement reconnues grâce à un clustering basé sur des invites. De plus, il utilise l'agrégation de structures spatio-temporelles (STSA) pour compenser les informations géométriques et de mouvement 4D manquantes, et propose l'échantillonnage d'interactions temporelles (TIS) pour améliorer les dépendances temporelles fines en exploitant les images non ancrées et en élargissant les champs récepteurs. Les résultats expérimentaux sur les jeux de données MSR-Action3D, NTU RGB+D et Synthia 4D démontrent l'efficacité de la méthode proposée. Le code source est accessible au public.

Takeaways, Limitations

Takeaways:
Nous présentons un modèle efficace pour la reconnaissance d’actions humaines subtiles et continues à partir de vidéos de nuages ​​de points.
Nous avons amélioré les performances de SSM en résolvant le problème du désordre spatio-temporel.
Utilisez efficacement les informations spatio-temporelles des vidéos de nuages ​​​​de points à l'aide des techniques STSS, STSA et TIS.
Nous avons vérifié ses performances à travers des expériences sur différents ensembles de données.
La reproductibilité a été obtenue grâce à la divulgation du code source.
Limitations:
Une analyse détaillée de la complexité informatique et de l’efficacité de la méthode proposée fait défaut.
Une évaluation supplémentaire des performances de généralisation sur différents types de données vidéo de nuages ​​de points est nécessaire.
Une analyse de sensibilité est nécessaire sur les performances du clustering basé sur les invites.
Des recherches supplémentaires sont nécessaires pour déterminer son applicabilité dans des applications réelles.
👍