Cet article présente un nouveau cadre de reconnaissance multimodale des aliments combinant les modalités visuelles et textuelles afin d'améliorer la précision et la robustesse de la reconnaissance. L'approche proposée utilise une stratégie de fusion multimodale dynamique qui intègre de manière adaptative les caractéristiques d'une entrée visuelle unimodale et les métadonnées textuelles complémentaires. Ce mécanisme de fusion est conçu pour maximiser l'utilisation du contenu informationnel tout en atténuant l'impact négatif des données de modalité manquantes ou incohérentes. Une évaluation rigoureuse sur l'ensemble de données UPMC Food-101 démontre une précision de classification unimodale de 73,60 % pour les images et de 88,84 % pour le texte. Une fois fusionné sur les deux modalités, le modèle atteint une précision de 97,84 %, surpassant plusieurs méthodes de pointe. Une analyse expérimentale approfondie démontre la robustesse, l'adaptabilité et l'efficacité informatique de la configuration proposée, soulignant son applicabilité pratique aux scénarios réels de reconnaissance multimodale des aliments.