Cette étude développe et déploie un cadre de classification hiérarchique multimodal pour relever les défis industriels de la classification des produits du e-commerce, tels que l'hétérogénéité des plateformes et les limites structurelles des systèmes de classification existants. À partir d'un ensemble de données de 271 700 produits collectés auprès de 40 plateformes internationales de e-commerce de mode, nous intégrons des caractéristiques textuelles (RoBERTa), des caractéristiques visuelles (ViT) et une représentation visuo-linguistique conjointe (CLIP). Nous explorons des stratégies de fusion précoce, tardive et basée sur l'attention au sein d'une structure hiérarchique, et améliorons le masquage dynamique pour garantir la cohérence du système de classification. En conséquence, l'intégration CLIP utilisant la stratégie de fusion tardive basée sur MLP a obtenu le score F1 hiérarchique le plus élevé (98,59 %), surpassant un modèle de référence monomodal. Pour traiter les catégories superficielles ou incohérentes, nous introduisons un pipeline de « reclassification de produits » basé sur l'apprentissage auto-supervisé utilisant SimCLR, UMAP et le clustering en cascade. Ce pipeline découvre de nouvelles catégories fines (par exemple, des sous-types de « chaussures ») avec une pureté de cluster supérieure à 86 %. Des expériences multiplateformes démontrent les compromis de déploiement. Alors que les méthodes complexes de fusion tardive optimisent la précision en utilisant des données d'apprentissage diversifiées, les méthodes simples de fusion précoce se généralisent plus efficacement à des plateformes inconnues. Enfin, nous démontrons l'évolutivité industrielle en déployant le framework sur la plateforme d'informations sur les transactions commerciales d'EURWEB à l'aide d'un pipeline d'inférence en deux étapes combinant une étape RoBERTa légère et une étape multimodale accélérée par GPU.