Este artículo aborda el problema de la segmentación continua de la lengua de señas, una tarea crucial para la traducción y la anotación de datos en lengua de señas. Proponemos una arquitectura basada en Transformer que modela la dinámica temporal y definimos la segmentación de fotogramas como un problema de etiquetado de secuencias mediante la técnica de etiquetado Begin-In-Out (BIO). Aprovechamos las características de la mano y los ángulos 3D de HaMeR y demostramos que nuestro enfoque logra resultados de vanguardia en el Corpus DGS y supera los parámetros de referencia existentes en BSLCorpus.