En este artículo, proponemos un método robusto de aprendizaje multivista (RML) que fusiona y alinea representaciones simultáneamente para superar las limitaciones del aprendizaje multivista (MVL) que integra diversos tipos de datos. RML utiliza una red de fusión de transformadores multivista para transformar datos multivista heterogéneos en incrustaciones de palabras homogéneas y obtener representaciones fusionadas mediante un mecanismo de atención a nivel de muestra. Además, proponemos un marco de aprendizaje contrastivo multivista que utiliza perturbación basada en simulación para simular condiciones de datos incompletos y alinea dos representaciones fusionadas obtenidas de datos ruidosos y datos no disponibles mediante aprendizaje contrastivo para aprender representaciones discriminativas y robustas. RML es un método de aprendizaje autosupervisado y puede utilizarse como un módulo listo para usar para la agrupación en clústeres no supervisada multivista, la clasificación de etiquetas ruidosas y la búsqueda hash intermodal. Los resultados experimentales verifican la eficacia de RML.