Cet article aborde le problème de la segmentation continue en langue des signes, un défi majeur pour la traduction en langue des signes et l'annotation de données. Nous proposons une architecture basée sur des transformateurs qui modélise la dynamique temporelle et définit la segmentation des images comme un problème d'étiquetage de séquences utilisant la méthode d'étiquetage Begin-In-Out (BIO). Nous exploitons les caractéristiques de la main HaMeR et les complétons par des angles 3D. Les résultats expérimentaux démontrent que le modèle proposé atteint des performances de pointe sur le corpus DGS, et que les caractéristiques proposées surpassent les références existantes sur le corpus BSL.