本稿では、現実世界の環境で動作する人工知能システムのために、視覚、言語、音声などのマルチモーダルデータ統合のための新しいフレームワークであるFedMM-X(Federated Multi-Modal Explainable Intelligence)を提案します。 FedMM-Xは、分散型のダイナミックな環境で信頼できる知能を確保するために、連合学習と説明可能なマルチモーダル推論を統合しています。データの不均一性、モーダル不均衡、分布外一般化の問題を解決するために、クロスモーダル整合性チェック、クライアントレベルの解釈可能性メカニズム、動的信頼補正を活用します。視覚言語の課題を含む連合マルチモーダルベンチマークの厳格な評価は、精度と解釈の可能性を向上させ、敵対的で虚偽の相関に対する脆弱性を減らすことを示しています。さらに、動的なクライアント参加の下でグローバルモデルの信頼性を定量化するための新しい信頼スコアの集約方法を紹介します。これらの結果は、実世界の環境で強力で、解釈可能で、社会的に責任あるAIシステムを開発する道を開きます。