Este artículo presenta un novedoso marco de reconocimiento multimodal de alimentos que combina modalidades visuales y textuales para mejorar la precisión y robustez del reconocimiento de alimentos. El enfoque propuesto utiliza una estrategia dinámica de fusión multimodal que integra de forma adaptativa las características de la entrada visual unimodal y los metadatos textuales complementarios. Este mecanismo de fusión está diseñado para maximizar el uso del contenido informativo, a la vez que mitiga el impacto negativo de la falta o inconsistencia de datos de modalidad. Una evaluación rigurosa del conjunto de datos UPMC Food-101 demuestra una precisión de clasificación unimodal del 73,60 % para imágenes y del 88,84 % para texto. Al fusionar ambas modalidades, el modelo alcanza una precisión del 97,84 %, superando a varios métodos de vanguardia. Un exhaustivo análisis experimental demuestra la robustez, adaptabilidad y eficiencia computacional de la configuración propuesta, destacando su aplicabilidad práctica en escenarios reales de reconocimiento multimodal de alimentos.