Dans cet article, nous proposons FedMM-X (Federated Multi-Modal Explainable Intelligence), un nouveau cadre d'intégration de données multimodales telles que la vision, le langage et la parole pour les systèmes d'IA fonctionnant dans des environnements réels. FedMM-X intègre l'apprentissage fédéré et l'inférence multimodale explicable pour garantir une intelligence fiable dans des environnements distribués et dynamiques. Il s'appuie sur des contrôles de cohérence intermodaux, des mécanismes d'interprétabilité au niveau du client et un étalonnage dynamique de la confiance pour relever les défis de l'hétérogénéité des données, du déséquilibre modal et de la généralisation erronée de la distribution. Grâce à des évaluations rigoureuses sur des benchmarks multimodaux fédérés, y compris des tâches vision-langage, nous démontrons qu'il améliore à la fois la précision et l'interprétabilité tout en réduisant la vulnérabilité aux corrélations contradictoires et parasites. Nous présentons également une nouvelle méthode d'agrégation des scores de confiance pour quantifier la confiance globale du modèle sous la participation dynamique du client. Ces résultats ouvrent la voie au développement de systèmes d'IA robustes, interprétables et socialement responsables dans des environnements réels.