Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EcomMMMU: Utilización estratégica de elementos visuales para modelos robustos de comercio electrónico multimodal

Created by
  • Haebom

Autor

Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning

Describir

Este documento aborda el problema de que diversos datos de imágenes de plataformas de comercio electrónico no siempre pueden mejorar la comprensión del producto. Para validar esto sistemáticamente, presentamos EcomMMMU, un conjunto de datos de comprensión multitarea multimodal a gran escala con 406,190 muestras y 8,989,510 imágenes. EcomMMMU consta de ocho tareas esenciales y un subconjunto de subconjunto de selección visual (VSS) para evaluar la capacidad de aprovechar múltiples imágenes. Se utiliza para comparar el rendimiento de los modelos de lenguaje multimodales a gran escala (MLLM). Nuestro análisis de EcomMMMU revela que las imágenes de productos no siempre mejoran el rendimiento y, en algunos casos, incluso lo degradan. Con base en este conocimiento, proponemos SUMEI, un método basado en datos que predice la utilidad de las imágenes y las utiliza estratégicamente para subtareas. Los resultados experimentales demuestran la efectividad y robustez de SUMEI. Los datos y el código están disponibles en https://anonymous.4open.science/r/submission25 .

Takeaways, Limitations

Takeaways:
Una nueva perspectiva sobre el aprovechamiento de datos multimodales en las plataformas de comercio electrónico: revela que los datos de imágenes no siempre son beneficiosos.
Evaluación de la capacidad de utilización de múltiples imágenes de MLLM y sugerencia de posibles mejoras utilizando el conjunto de datos multimodales a gran escala EcomMMMU.
Se propone SUMEI, un método eficiente de utilización de múltiples imágenes basado en la predicción de la utilidad de la imagen.
Esto sugiere que MLLM puede tener dificultades para aprovechar de forma eficaz el contenido visual enriquecido en las operaciones de comercio electrónico.
Limitations:
Posible sesgo hacia plataformas de comercio electrónico específicas en el conjunto de datos EcomMMMU.
Se necesitan más investigaciones para determinar la generalización del método SUMEI.
La verificación del rendimiento es necesaria para otras tareas relacionadas con el comercio electrónico más allá de las ocho presentadas.
👍