En este artículo, proponemos un marco integral de aprendizaje profundo que integra captura óptica de movimiento y modelos basados en Transformers para optimizar la rehabilitación médica. Este marco aborda los problemas de ruido y datos faltantes debido a oclusión y factores ambientales, y detecta movimientos anormales en tiempo real para garantizar la seguridad del paciente. Mejoramos la robustez mediante la eliminación de ruido y la complementación de los datos de captura de movimiento mediante modelado de secuencias temporales. Los resultados de la evaluación de conjuntos de datos de ictus y rehabilitación ortopédica muestran un excelente rendimiento en la reconstrucción de datos y la detección de anomalías, lo que proporciona una solución escalable y rentable para la telerrehabilitación con menor supervisión presencial.