SPGrasp est un nouveau framework pour la synthèse interactive de préhension en temps réel d'objets dynamiques. Afin de relever les défis des méthodes existantes, qui peinent à obtenir simultanément une inférence à faible latence et une promptabilité, nous présentons une méthode qui étend SAMv2 à l'estimation de la préhension des flux vidéo. En intégrant les invites utilisateur et le contexte spatio-temporel, nous permettons une interaction en temps réel avec une latence de bout en bout pouvant atteindre 59 ms, tout en garantissant la cohérence temporelle des objets dynamiques. Nous obtenons une précision élevée (respectivement 90,6 % et 93,8 %) sur les jeux de données OCID et Jacquard, et sur le jeu de données GraspNet-1Billion, nous atteignons une précision de 92,0 % avec une latence d'image de 73,1 ms, soit une amélioration de 58,5 % par rapport au modèle de pointe précédent. Lors d'expériences avec 13 objets en mouvement réels, nous obtenons un taux de réussite de 94,8 %, démontrant que notre approche résout efficacement le compromis entre latence et interactivité dans la synthèse de préhension dynamique.