En este artículo, proponemos un método de optimización integral centrado en el mecanismo de interacción multiatención para resolver los problemas del reconocimiento de la actividad humana (HAR), como la falta de muestras etiquetadas, la dificultad de la extracción de características de alta dimensión y el bajo rendimiento en dispositivos ligeros. Primero, realizamos el aumento de datos utilizando un modelo de difusión basado en aprendizaje no supervisado y diseñamos una red de interacción espaciotemporal multi-rama para extraer características multiescala. Integra mecanismos de atención temporal y espacial, y mejora la capacidad de representación de características a través de una unidad de fusión de características entre ramas. Finalmente, ajustamos dinámicamente los pesos de pérdida y optimizamos el modelo mediante una estrategia adaptativa de fusión de funciones multi-pérdida. El método propuesto supera los métodos existentes en tres conjuntos de datos públicos: WISDM, PAMAP2 y OPPORTUNITY, y su eficiencia y viabilidad se verifican mediante la implementación práctica en dispositivos embebidos.