Dans cet article, nous proposons une méthode d'optimisation complète centrée sur le mécanisme d'interaction multi-attention afin de résoudre les problèmes de reconnaissance d'activité humaine (HAR), tels que le manque d'échantillons étiquetés, la difficulté d'extraction de caractéristiques de grande dimension et les faibles performances sur les dispositifs légers. Dans un premier temps, nous effectuons une augmentation des données à l'aide d'un modèle de diffusion basé sur l'apprentissage non supervisé et concevons un réseau d'interaction spatio-temporel multi-branches pour extraire des caractéristiques multi-échelles. Ce réseau intègre les mécanismes d'attention temporelle et spatiale et améliore la capacité de représentation des caractéristiques grâce à une unité de fusion de caractéristiques entre les branches. Enfin, nous ajustons dynamiquement les poids de perte et optimisons le modèle grâce à une stratégie adaptative de fusion de fonctions multi-pertes. La méthode proposée surpasse les méthodes existantes sur trois jeux de données publics : WISDM, PAMAP2 et OPPORTUNITY. Son efficacité et sa faisabilité sont vérifiées par un déploiement pratique sur des dispositifs embarqués.