본 논문은 실세계 환경에서 작동하는 인공지능 시스템을 위해, 시각, 언어, 음성 등 다중 모달 데이터 통합을 위한 새로운 프레임워크인 FedMM-X (Federated Multi-Modal Explainable Intelligence)를 제안합니다. FedMM-X는 분산된 역동적인 환경에서 신뢰할 수 있는 지능을 보장하기 위해 연합 학습과 설명 가능한 다중 모달 추론을 통합합니다. 데이터 이질성, 모달 불균형, 분포 외 일반화의 문제를 해결하기 위해 교차 모달 일관성 검사, 클라이언트 수준의 해석 가능성 메커니즘, 동적 신뢰 보정을 활용합니다. 시각-언어 과제를 포함하는 연합 다중 모달 벤치마크에 대한 엄격한 평가를 통해 정확도와 해석 가능성을 모두 향상시키면서 적대적이고 허위 상관 관계에 대한 취약성을 줄이는 것을 보여줍니다. 또한, 동적인 클라이언트 참여 하에서 전역 모델 신뢰성을 정량화하기 위한 새로운 신뢰 점수 집계 방법을 제시합니다. 이러한 결과는 실세계 환경에서 강력하고, 해석 가능하며, 사회적으로 책임감 있는 AI 시스템을 개발하는 길을 열어줍니다.