Este artículo aborda el problema de la segmentación continua de la lengua de señas, un desafío crítico en la traducción y anotación de datos de lengua de señas. Proponemos una arquitectura basada en transformadores que modela la dinámica temporal y define la segmentación de fotogramas como un problema de etiquetado de secuencias mediante el método de etiquetado Begin-In-Out (BIO). Aprovechamos las características de la mano de HaMeR y las complementamos con ángulos 3D. Los resultados experimentales demuestran que el modelo propuesto alcanza un rendimiento de vanguardia en el corpus DGS, y las características propuestas superan los parámetros de referencia existentes en el corpus BSL.