Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

Created by
  • Haebom

저자

Haotian Ni, Yake Wei, Hang Liu, Gong Chen, Chong Peng, Hao Lin, Di Hu

개요

본 논문은 다양한 모달리티의 정보를 효과적으로 융합하는 다중 모달 학습에서, 특히 모달리티 품질이 샘플마다 다를 때 어려움을 겪는 문제를 다룬다. 트랜스포머의 어텐션 메커니즘과 같은 동적 융합 전략은 입력 데이터의 특징에 따라 모달리티를 적응적으로 강조하여 이러한 문제를 해결하려 한다. 그러나 다수의 실험을 통해, 널리 사용되는 자기 어텐션 모델의 동적 적응성이 감소하고 데이터 특징과 상관없이 특정 모달리티를 선호하는 경향이 있음을 발견했다. 이러한 편향은 선호하는 모달리티를 점진적으로 과도하게 강조하는 자기 강화 순환을 유발하여, 모달리티 간 어텐션 키의 분포 격차를 넓히고 어텐션 메커니즘의 동적 특성을 비활성화한다. 본 논문에서는 이러한 적응성을 되살리기 위해 자기 강화 순환을 깨고 키 분포 격차를 완화하기 위해 쿼리를 회전시켜 어텐션 할당을 균형 있게 조정하는 간단하면서도 효과적인 방법인 Rolling Query (RollingQ)를 제안한다. 다양한 다중 모달 시나리오에 대한 광범위한 실험을 통해 RollingQ의 효과를 검증하고, 협력 역학의 복원이 널리 배포된 다중 모달 트랜스포머의 광범위한 기능을 향상시키는 데 중요함을 보여준다. 소스 코드는 https://github.com/GeWu-Lab/RollingQ_ICML2025 에서 확인할 수 있다.

시사점, 한계점

시사점:
널리 사용되는 자기 어텐션 모델의 동적 적응성 한계를 밝힘.
모달리티 편향 문제와 자기 강화 순환의 메커니즘을 제시.
모달리티 편향 문제를 해결하는 효과적인 방법인 RollingQ 제안.
다양한 다중 모달 시나리오에서 RollingQ의 효과를 검증.
다중 모달 트랜스포머의 성능 향상을 위한 새로운 방향 제시.
한계점:
RollingQ의 일반성에 대한 추가적인 연구 필요.
다양한 다중 모달 데이터셋 및 작업에 대한 추가적인 실험 필요.
RollingQ의 계산 비용 및 효율성에 대한 분석 필요.
👍