Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EcomMMMU : Utilisation stratégique des visuels pour des modèles de commerce électronique multimodaux robustes

Created by
  • Haebom

Auteur

Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning

Contour

Cet article aborde le problème selon lequel la diversité des données d'images issues des plateformes de commerce électronique n'améliore pas toujours la compréhension des produits. Afin de valider systématiquement ce point, nous présentons EcomMMMU, un jeu de données de compréhension multimodal et multitâche à grande échelle, comprenant 406 190 échantillons et 8 989 510 images. EcomMMMU se compose de huit tâches essentielles et d'un sous-ensemble de sélection visuelle (VSS) permettant d'évaluer la capacité à exploiter plusieurs images. Il est utilisé pour évaluer les performances des modèles linguistiques multimodaux à grande échelle (MLLM). Notre analyse d'EcomMMMU révèle que les images de produits n'améliorent pas toujours les performances, voire les dégradent dans certains cas. Forts de ce constat, nous proposons SUMEI, une méthode basée sur les données qui prédit l'utilité des images et les utilise stratégiquement pour les sous-tâches. Les résultats expérimentaux démontrent l'efficacité et la robustesse de SUMEI. Les données et le code sont disponibles à l'adresse https://anonymous.4open.science/r/submission25 .

Takeaways, Limitations

Takeaways:
Une nouvelle perspective sur l’exploitation des données multimodales dans les plateformes de commerce électronique : révéler que les données d’image ne sont pas toujours bénéfiques.
ÉValuation de la capacité d'utilisation multi-images de MLLM et suggestion d'améliorations potentielles à l'aide de l'ensemble de données multimodales à grande échelle EcomMMMU.
SUMEI, une méthode efficace d'utilisation multi-images basée sur la prédiction de l'utilité de l'image, est proposée.
Cela suggère que MLLM pourrait avoir du mal à exploiter efficacement un contenu visuel riche dans les opérations de commerce électronique.
Limitations:
Biais possible en faveur de plateformes de commerce électronique spécifiques dans l'ensemble de données EcomMMMU.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode SUMEI.
Une vérification des performances est nécessaire pour d’autres tâches liées au commerce électronique au-delà des huit présentées.
👍