Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Au-delà des images : fusion adaptative de données visuelles et textuelles pour la classification des aliments

Created by
  • Haebom

Auteur

Prateek Mittal, Puneet Goyal, Joohi Chauhan

Contour

Cet article présente un nouveau cadre de reconnaissance multimodale des aliments combinant les modalités visuelles et textuelles afin d'améliorer la précision et la robustesse de la reconnaissance. L'approche proposée utilise une stratégie de fusion multimodale dynamique qui intègre de manière adaptative les caractéristiques d'une entrée visuelle unimodale et les métadonnées textuelles complémentaires. Ce mécanisme de fusion est conçu pour maximiser l'utilisation du contenu informationnel tout en atténuant l'impact négatif des données de modalité manquantes ou incohérentes. Une évaluation rigoureuse sur l'ensemble de données UPMC Food-101 démontre une précision de classification unimodale de 73,60 % pour les images et de 88,84 % pour le texte. Une fois fusionné sur les deux modalités, le modèle atteint une précision de 97,84 %, surpassant plusieurs méthodes de pointe. Une analyse expérimentale approfondie démontre la robustesse, l'adaptabilité et l'efficacité informatique de la configuration proposée, soulignant son applicabilité pratique aux scénarios réels de reconnaissance multimodale des aliments.

Takeaways, Limitations

Takeaways:
Amélioration de la précision de la reconnaissance des aliments (97,84 %) grâce à une fusion efficace des modalités visuelles et textuelles.
Robustesse face aux données manquantes ou incohérentes.
Preuve de l'efficacité et de l'adaptabilité d'une stratégie de fusion multimodale dynamique.
Présentation des possibilités d’application pratique.
Limitations:
L'évaluation a été réalisée uniquement sur l'ensemble de données UPMC Food-101, une validation supplémentaire de la généralisabilité est donc nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer si les paramètres optimisés pour un ensemble de données spécifique peuvent garantir les mêmes performances sur d’autres ensembles de données.
Il est nécessaire d’évaluer les performances de généralisation pour différents types de métadonnées textuelles.
👍