Cet article propose MMSC, un nouveau cadre d'apprentissage relationnel multimodal basé sur l'apprentissage auto-supervisé, conçu pour inférer des éléments alternatifs et complémentaires. Les approches existantes se concentrent sur la modélisation des associations inter-éléments déduites du comportement des utilisateurs à l'aide de réseaux de neurones à réseau (GNN) ou en exploitant les informations sur le contenu des éléments, mais ont tendance à négliger les défis liés à la rareté des données en raison du bruit généré par les données comportementales des utilisateurs et des distributions à longue traîne. MMSC comprend un module d'apprentissage relationnel multimodal basé sur un modèle de base multimodal, un module d'apprentissage relationnel auto-supervisé basé sur la représentation des actions qui débruit et apprend à partir des données comportementales des utilisateurs, et un mécanisme d'agrégation hiérarchique des représentations qui intègre les représentations des éléments aux niveaux sémantique et des tâches. De plus, les LLM sont utilisés pour générer des données d'apprentissage augmentées afin d'améliorer encore le processus de débruitage pendant l'apprentissage. Des expériences approfondies sur cinq ensembles de données du monde réel démontrent que MMSC surpasse les modèles de base existants de 26,1 % en matière de recommandation alternative et de 39,2 % en matière de recommandation complémentaire, démontrant ainsi son efficacité dans la modélisation des éléments de démarrage à froid.