Cet article propose DUAL-Health, un cadre de fusion multimodale prenant en compte l'incertitude pour la surveillance de la santé en environnement extérieur. Les cadres d'apprentissage profond multimodaux statiques existants nécessitent des données d'entraînement importantes et présentent des limites pour capturer les changements subtils de l'état de santé. En revanche, les modèles multimodaux de langage géant (MLLM) permettent une surveillance robuste de la santé en affinant des modèles riches en informations pré-entraînés sur de petites quantités de données. Cependant, la surveillance de la santé en extérieur basée sur les MLLM est confrontée à des défis tels que le bruit dans les données des capteurs, les difficultés de fusion multimodale robuste et les difficultés de récupération des données manquantes en raison de modes présentant des niveaux de bruit variables. DUAL-Health relève ces défis en quantifiant l'impact du bruit dans les données des capteurs, en réalisant une fusion multimodale efficace à l'aide de pondérations basées sur l'incertitude et en alignant les distributions modales au sein d'un espace sémantique commun. Les résultats expérimentaux démontrent que DUAL-Health présente une précision et une robustesse supérieures aux méthodes existantes.