본 논문은 다양한 형태의 데이터를 통합하는 다중 뷰 학습(MVL)의 한계를 극복하기 위해, 표현 융합과 정렬을 동시에 수행하는 강건한 MVL 방법(RML)을 제안합니다. RML은 이종의 다중 뷰 데이터를 동질적인 단어 임베딩으로 변환하고, 샘플 수준의 어텐션 메커니즘을 통해 융합된 표현을 얻는 다중 뷰 트랜스포머 융합 네트워크를 사용합니다. 또한, 불완전한 데이터 조건을 시뮬레이션하기 위해 시뮬레이션 기반의 섭동을 활용한 다중 뷰 대조 학습 프레임워크를 제안하여, 잡음이 있는 데이터와 사용할 수 없는 데이터로부터 얻은 두 가지 융합된 표현을 대조 학습을 통해 정렬하여 차별적이고 강건한 표현을 학습합니다. RML은 자기 지도 학습 방식이며, 다중 뷰 비지도 클러스터링, 잡음 레이블 분류, 그리고 크로스 모달 해싱 검색을 위한 플러그 앤 플레이 모듈로 사용될 수 있습니다. 실험 결과, RML의 효과성을 검증합니다.