RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer
Created by
Haebom
저자
Haotian Ni, Yake Wei, Hang Liu, Gong Chen, Chong Peng, Hao Lin, Di Hu
개요
본 논문은 다양한 모달리티의 정보를 효과적으로 융합하는 다중 모달 학습에서, 특히 모달리티 품질이 샘플마다 다를 때 어려움을 겪는 문제를 다룬다. 트랜스포머의 어텐션 메커니즘과 같은 동적 융합 전략은 입력 데이터의 특징에 따라 모달리티를 적응적으로 강조하여 이러한 문제를 해결하려 한다. 그러나 다수의 실험을 통해, 널리 사용되는 자기 어텐션 모델의 동적 적응성이 감소하고 데이터 특징과 상관없이 특정 모달리티를 선호하는 경향이 있음을 발견했다. 이러한 편향은 선호하는 모달리티를 점진적으로 과도하게 강조하는 자기 강화 순환을 유발하여, 모달리티 간 어텐션 키의 분포 격차를 넓히고 어텐션 메커니즘의 동적 특성을 비활성화한다. 본 논문에서는 이러한 적응성을 되살리기 위해 자기 강화 순환을 깨고 키 분포 격차를 완화하기 위해 쿼리를 회전시켜 어텐션 할당을 균형 있게 조정하는 간단하면서도 효과적인 방법인 Rolling Query (RollingQ)를 제안한다. 다양한 다중 모달 시나리오에 대한 광범위한 실험을 통해 RollingQ의 효과를 검증하고, 협력 역학의 복원이 널리 배포된 다중 모달 트랜스포머의 광범위한 기능을 향상시키는 데 중요함을 보여준다. 소스 코드는 https://github.com/GeWu-Lab/RollingQ_ICML2025 에서 확인할 수 있다.