Cet article présente un système de communication à grande échelle qui améliore la compréhension de l'environnement et la précision des prises de décision grâce à une collaboration intelligente entre des dispositifs périphériques collectant des données sensorielles de différentes modalités. Les algorithmes d'apprentissage fédéré (FL) existants prennent généralement en compte un jeu de données monomodal, requièrent la même architecture de modèle et ne parviennent pas à exploiter la richesse des informations inhérentes aux données multimodales, ce qui limite leur applicabilité à des scénarios réels avec diverses modalités et capacités client. Pour résoudre ce problème, cet article propose Sheaf-DMFL, un nouveau cadre d'apprentissage multimodal distribué qui exploite la théorie des couches pour améliorer la collaboration entre des dispositifs aux modalités diverses. Chaque client dispose d'un ensemble d'encodeurs de caractéristiques locales pour différentes modalités, et leurs sorties sont concaténées avant de passer par des couches spécifiques à la tâche. Les encodeurs pour une même modalité sont entraînés conjointement entre les clients, tandis que l'architecture en couches capture les corrélations inhérentes entre les couches spécifiques à la tâche des clients. Afin d'améliorer encore la capacité d'apprentissage, nous proposons un algorithme amélioré, Sheaf-DMFL-Att, qui capture les corrélations entre différentes modalités en coordonnant le mécanisme d'attention de chaque client. Nous fournissons une analyse rigoureuse de la convergence de Sheaf-DMFL-Att afin d'établir des garanties théoriques. Des simulations approfondies sur des prédictions réalistes de blocage de liaison et des scénarios de formation de faisceaux mmWave démontrent la supériorité de l'algorithme proposé dans ces systèmes de communication sans fil hétérogènes.