Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Categorización y recategorización de productos de comercio electrónico multiplataforma: un enfoque de clasificación jerárquica multimodal

Created by
  • Haebom

Autor

Lotte Gross, Rebecca Walter, Nicole Zoppi, Adrien Justus, Alessandro Gambetti, Qiwei Han, Maximilian Kaiser

Describir

Este estudio desarrolla e implementa un marco de clasificación jerárquica multimodal para abordar los desafíos industriales de la clasificación de productos en el comercio electrónico, como la heterogeneidad de las plataformas y las limitaciones estructurales de los sistemas de clasificación existentes. Utilizando un conjunto de datos de 271.700 productos recopilados de 40 plataformas internacionales de comercio electrónico de moda, integramos características textuales (RoBERTa), características visuales (ViT) y una representación visual-lingüística conjunta (CLIP). Exploramos estrategias de fusión temprana, tardía y basada en la atención dentro de una estructura jerárquica, y mejoramos el enmascaramiento dinámico para garantizar la consistencia del sistema de clasificación. Como resultado, la integración de CLIP mediante la estrategia de fusión tardía basada en MLP alcanzó la puntuación F1 jerárquica más alta (98,59%), superando a un modelo de referencia unimodal. Para abordar categorías superficiales o inconsistentes, introducimos un proceso de "reclasificación de productos" basado en aprendizaje autosupervisado que utiliza SimCLR, UMAP y agrupamiento en cascada. Este pipeline descubre nuevas categorías de granularidad fina (p. ej., subtipos de "zapatos") con una pureza de clúster superior al 86 %. Los experimentos multiplataforma demuestran las ventajas y desventajas de la implementación. Mientras que los métodos complejos de fusión tardía maximizan la precisión al utilizar diversos datos de entrenamiento, los métodos sencillos de fusión temprana se generalizan con mayor eficacia a plataformas desconocidas. Finalmente, demostramos la escalabilidad industrial mediante la implementación del marco en la plataforma de información de transacciones comerciales de EURWEB mediante un pipeline de inferencia de dos etapas que combina una etapa ligera RoBERTa y una etapa multimodal acelerada por GPU.

Takeaways, Limitations

Takeaways:
Mejora de la precisión de la clasificación de productos de comercio electrónico a través de la fusión de información multimodal (texto, imagen) (logra una puntuación F1 del 98,59%).
Superar las limitaciones de los sistemas de clasificación existentes y descubrir categorías refinadas a través de un proceso de reclasificación de productos basado en aprendizaje autosupervisado.
Presentamos una estrategia de selección de modelos adecuada para entornos de implementación del mundo real al sugerir compensaciones entre el rendimiento y la precisión de la generalización multiplataforma.
Presentar casos exitosos de construcción e implementación de sistemas del mundo real con escalabilidad industrial.
Limitations:
Los resultados se limitaron a un dominio específico (moda). Se requiere más investigación para determinar su generalización a otros dominios.
El rendimiento depende de grandes conjuntos de datos. Posible degradación del rendimiento en entornos con escasez de datos.
La complejidad del método de fusión tardía incrementa los costos computacionales. Se requiere mayor investigación sobre aligeramiento y optimización.
Se necesita un análisis más profundo del rendimiento de agrupamiento de los procesos de reclasificación basados ​​en aprendizaje autosupervisado.
👍