Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification

Created by
  • Haebom

作者

Prateek Mittal, Puneet Goyal, Joohi Chauhan

概要

この論文は、視覚とテキストのモダリティを組み合わせて、食品認識の精度と堅牢性を向上させる新しい多モーダル食品認識フレームワークを提示します。提案されたアプローチは、単一のモーダルビジュアル入力と相互補完的なテキストメタデータの特徴を適応的に統合する動的多モーダル融合戦略を使用します。この融合メカニズムは、欠落しているか一貫性のないモダリティデータの悪影響を軽減しながら、情報コンテンツの利用を最大化するように設計されています。 UPMC Food-101データセットで厳密に評価された結果、画像の単一モーダル分類精度は73.60%、テキストの精度は88.84%を達成しました。 2つのモダリティを融合すると、モデルは97.84%の精度を達成し、いくつかの最先端の方法を上回りました。幅広い実験分析により、提案された設定の堅牢性、適応性、および計算効率を実証し、実際のダモダル食品認識シナリオへの実用的な適用性を強調しました。

Takeaways、Limitations

Takeaways:
視覚およびテキストモダリティの効果的な融合による食品認識の精度向上(97.84%達成)。
欠落しているデータや一貫性のないデータの堅牢性を確保する。
動的多モード融合戦略の効率と適応性の証明
実際の応用性を提示します。
Limitations:
UPMC Food-101データセットの評価のみが行われ、一般化の可能性をさらに検証する必要があります。
特定のデータセットに最適化された設定が他のデータセットでも同じパフォーマンスを保証できるかどうかをさらに検討する必要があります。
さまざまな種類のテキストメタデータの一般化パフォーマンス評価が必要です。
👍