この論文は、視覚とテキストのモダリティを組み合わせて、食品認識の精度と堅牢性を向上させる新しい多モーダル食品認識フレームワークを提示します。提案されたアプローチは、単一のモーダルビジュアル入力と相互補完的なテキストメタデータの特徴を適応的に統合する動的多モーダル融合戦略を使用します。この融合メカニズムは、欠落しているか一貫性のないモダリティデータの悪影響を軽減しながら、情報コンテンツの利用を最大化するように設計されています。 UPMC Food-101データセットで厳密に評価された結果、画像の単一モーダル分類精度は73.60%、テキストの精度は88.84%を達成しました。 2つのモダリティを融合すると、モデルは97.84%の精度を達成し、いくつかの最先端の方法を上回りました。幅広い実験分析により、提案された設定の堅牢性、適応性、および計算効率を実証し、実際のダモダル食品認識シナリオへの実用的な適用性を強調しました。