본 논문은 다양한 형태의 데이터를 효과적으로 통합하는 강건한 다중 뷰 학습 방법(RML)을 제안합니다. RML은 이종의 다중 뷰 데이터를 동질적인 단어 임베딩으로 변환하는 다중 뷰 트랜스포머 융합 네트워크와 샘플 수준의 어텐션 메커니즘을 통해 융합된 표현을 생성합니다. 또한, 불완전한 데이터 조건을 시뮬레이션하기 위해 모의 섭동 기반 다중 뷰 대조 학습 프레임워크를 제시하여, 잡음이 포함된 데이터와 사용 불가능한 데이터로부터 얻은 두 개의 융합된 표현을 대조 학습을 통해 정렬하여 차별적이고 강건한 표현을 학습합니다. RML은 자기 지도 학습 방식이며, 비지도 다중 뷰 클러스터링, 잡음 레이블 분류, 그리고 크로스 모달 해싱 검색을 위한 플러그 앤 플레이 모듈로 활용될 수 있습니다. 실험 결과는 RML의 효과를 입증합니다.