Cet article présente une vision des modèles fédérés multimodaux et multitâches (M3T) (FedFMs) capables d'offrir des capacités transformatrices aux systèmes de réalité étendue (XR). Nous proposons une architecture modulaire pour les FedFMs qui intègre la puissance expressive des modèles M3T aux principes d'apprentissage préservant la confidentialité de l'apprentissage fédéré (FL), en intégrant divers paradigmes d'orchestration pour l'apprentissage et l'agrégation des modèles. Nous nous concentrons sur le codage des défis de la XR qui impactent la mise en œuvre des FedFMs selon les dimensions SHIFT : diversité des capteurs et des modes, hétérogénéité matérielle et contraintes système, interaction et personnalisation implémentée, variabilité des fonctionnalités/tâches, et variabilité temporelle et environnementale. Nous démontrons la mise en œuvre de ces dimensions dans des applications de systèmes XR émergentes et anticipées, et proposons des métriques d'évaluation, des exigences en matière d'ensembles de données et des compromis de conception nécessaires au développement de FedFMs sensibles aux ressources. Notre objectif est de fournir une base technique et conceptuelle pour une intelligence contextuelle préservant la confidentialité dans les systèmes XR de nouvelle génération.