Este artículo presenta una visión para los modelos federados multimodales y multitarea (M3T) que pueden proporcionar capacidades transformadoras para sistemas de realidad extendida (XR). Proponemos una arquitectura modular para FedFM que integra el poder expresivo de los modelos basados en M3T con los principios de entrenamiento de modelos que preservan la privacidad del aprendizaje federado (FL), incorporando diversos paradigmas de orquestación para el entrenamiento y la agregación de modelos. Nos centramos en los desafíos de codificación de XR que impactan la implementación de FedFM a lo largo de las dimensiones SHIFT: diversidad de sensores y modal, heterogeneidad del hardware y restricciones a nivel de sistema, interacción y personalización implementada, variabilidad de características/tareas, y variabilidad temporal y ambiental. Demostramos la implementación de estas dimensiones en aplicaciones emergentes y anticipadas de sistemas XR y proponemos métricas de evaluación, requisitos de conjuntos de datos y compensaciones de diseño necesarias para el desarrollo de FedFM con capacidad de adaptación a los recursos. Nuestro objetivo es proporcionar una base técnica y conceptual para la inteligencia con capacidad de adaptación al contexto y que preserva la privacidad en sistemas XR de próxima generación.