Este artículo propone MMSC, un novedoso marco de aprendizaje de representación relacional multimodal de ítems basado en aprendizaje autosupervisado, diseñado para inferir ítems alternativos y complementarios. Los enfoques existentes se centran en modelar las asociaciones entre ítems inferidas a partir del comportamiento del usuario mediante redes neuronales globales (GNN) o aprovechando la información del contenido del ítem, pero tienden a ignorar los desafíos de la escasez de datos debido al ruido en los datos de comportamiento del usuario y a las distribuciones de cola larga. MMSC consta de un módulo de aprendizaje de representación de ítems multimodal que utiliza un modelo base multimodal, un módulo de aprendizaje de representación de acciones basado en aprendizaje autosupervisado que elimina el ruido y aprende de los datos de comportamiento del usuario, y un mecanismo de agregación de representación jerárquica que integra las representaciones de ítems tanto a nivel semántico como de tarea. Además, se utilizan LLM para generar datos de aprendizaje aumentados y optimizar el proceso de eliminación de ruido durante el entrenamiento. Experimentos exhaustivos en cinco conjuntos de datos del mundo real demuestran que MMSC supera a los modelos de referencia existentes en un 26,1 % en la recomendación alternativa y en un 39,2 % en la recomendación complementaria, lo que demuestra su eficacia en el modelado de elementos de inicio en frío.