Este estudio desarrolla e implementa un marco de clasificación jerárquica multimodal para abordar los desafíos industriales de la clasificación de productos en el comercio electrónico, como la heterogeneidad de las plataformas y las limitaciones estructurales de los sistemas de clasificación existentes. Utilizando un conjunto de datos de 271.700 productos recopilados de 40 plataformas internacionales de comercio electrónico de moda, integramos características textuales (RoBERTa), características visuales (ViT) y una representación visual-lingüística conjunta (CLIP). Exploramos estrategias de fusión temprana, tardía y basada en la atención dentro de una estructura jerárquica, y mejoramos el enmascaramiento dinámico para garantizar la consistencia del sistema de clasificación. Como resultado, la integración de CLIP mediante la estrategia de fusión tardía basada en MLP alcanzó la puntuación F1 jerárquica más alta (98,59%), superando a un modelo de referencia unimodal. Para abordar categorías superficiales o inconsistentes, introducimos un proceso de "reclasificación de productos" basado en aprendizaje autosupervisado que utiliza SimCLR, UMAP y agrupamiento en cascada. Este pipeline descubre nuevas categorías de granularidad fina (p. ej., subtipos de "zapatos") con una pureza de clúster superior al 86 %. Los experimentos multiplataforma demuestran las ventajas y desventajas de la implementación. Mientras que los métodos complejos de fusión tardía maximizan la precisión al utilizar diversos datos de entrenamiento, los métodos sencillos de fusión temprana se generalizan con mayor eficacia a plataformas desconocidas. Finalmente, demostramos la escalabilidad industrial mediante la implementación del marco en la plataforma de información de transacciones comerciales de EURWEB mediante un pipeline de inferencia de dos etapas que combina una etapa ligera RoBERTa y una etapa multimodal acelerada por GPU.