SPGrasp es un novedoso marco para la síntesis de agarre interactivo en tiempo real para objetos dinámicos. Para abordar los desafíos de los métodos existentes, que no logran simultáneamente inferencia de baja latencia y prontitud, presentamos un método que extiende SAMv2 para la estimación de agarre de transmisiones de video. Al incorporar indicaciones de usuario y contexto espaciotemporal, permitimos la interacción en tiempo real con una latencia de extremo a extremo de hasta 59 ms, a la vez que garantizamos la consistencia temporal de los objetos dinámicos. Logramos una alta precisión (90,6 % y 93,8 %, respectivamente) en los conjuntos de datos OCID y Jacquard, y en el conjunto de datos GraspNet-1Billion, alcanzamos una precisión del 92,0 % con una latencia de fotograma de 73,1 ms, una mejora del 58,5 % con respecto al modelo de vanguardia anterior. En experimentos con 13 objetos en movimiento del mundo real, logramos una tasa de éxito del 94,8 %, lo que demuestra que nuestro enfoque aborda eficazmente el equilibrio entre latencia e interactividad en la síntesis de agarre dinámico.