InfMasking: Contrastive Synergistic Information Extraction for Multimodal Representation Learning
개요
본 논문은 다중 모달 표현 학습에서 모달리티 간의 시너지 효과를 효과적으로 포착하기 위한 새로운 접근 방식인 InfMasking을 제안합니다. InfMasking은 무한 마스킹 전략을 사용하여 각 모달리티의 대부분의 특징을 무작위로 가리고, 부분적인 정보만을 유지하여 다양한 시너지 패턴을 가진 표현을 생성합니다. 가려지지 않은 융합된 표현은 상호 정보 최대화를 통해 가려진 표현과 정렬되어 포괄적인 시너지 정보를 인코딩합니다. 이 방법은 훈련 중에 다양한 부분 모달리티 조합에 모델을 노출시켜 풍부한 상호 작용을 포착할 수 있게 합니다. 계산 복잡성을 해결하기 위해 InfMasking 손실을 유도하여 상호 정보 추정을 근사합니다. 대규모 실제 데이터셋에 대한 실험을 통해 InfMasking이 7개의 벤치마크에서 최첨단 성능을 달성함을 입증했습니다.
시사점, 한계점
•
시사점:
◦
다중 모달 표현 학습에서 시너지 정보의 중요성을 강조하고, 이를 효과적으로 포착하기 위한 새로운 방법론 제시.