Cet article propose le modèle spatio-temporel unifié d'états-espaces (UST-SSM) pour résoudre le problème du chaos spatio-temporel dans les vidéos de nuages de points. UST-SSM étend le modèle sélectif d'états-espaces (SSM) aux vidéos de nuages de points et introduit la technique de balayage sélectif spatio-temporel (STSS), qui reconstruit les points chaotiques en séquences sémantiquement reconnues grâce à un clustering basé sur des invites. De plus, il utilise l'agrégation de structures spatio-temporelles (STSA) pour compenser les informations géométriques et de mouvement 4D manquantes, et propose l'échantillonnage d'interactions temporelles (TIS) pour améliorer les dépendances temporelles fines en exploitant les images non ancrées et en élargissant les champs récepteurs. Les résultats expérimentaux sur les jeux de données MSR-Action3D, NTU RGB+D et Synthia 4D démontrent l'efficacité de la méthode proposée. Le code source est accessible au public.