Enhancing Multimodal Unified Representations for Cross Modal Generalization
Created by
Haebom
저자
Hai Huang, Yan Xia, Shengpeng Ji, Shulei Wang, Hanting Wang, Minghui Fang, Jieming Zhu, Zhenhua Dong, Sashuai Zhou, Zhou Zhao
개요
본 논문은 다중 모달 통합 표현의 해석력을 향상시키기 위해 이산적 통합 표현에 초점을 맞춘 연구들을 다룹니다. 기존 연구들은 대조 학습을 기반으로 모달 정보의 분리에 초점을 맞추어 견고한 다중 모달 이산 통합 표현을 달성하지만, 1) 이산 표현에서의 양자화에 유클리드 거리를 사용함으로써 특징 차원 간의 중요한 차이를 간과하여 중복 표현이 발생하고, 2) 서로 다른 모달의 고유한 특성을 고려하지 않고 균일한 정렬 방식을 사용하는 한계점을 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 사전 학습된 통합 이산 표현을 개선하고 각 모달의 특성에 맞춰 세분화된 및 조잡한 정보 분리를 수행하는 Training-free Optimization of Codebook (TOC)와 Fine and Coarse cross-modal Information Disentangling (FCID) 방법을 제안하여 기존 최첨단 모델보다 성능을 크게 향상시켰습니다. 코드는 https://github.com/haihuangcode/CMG 에서 이용 가능합니다.