비전-언어 파인튜닝은 멀티모달 기반 모델 구축을 위한 효율적인 패러다임으로 부상했다. 이미지 내에서 텍스트 컨텍스트는 종종 의미 관계를 강조하지만, 기존의 파인튜닝 방법은 비전과 언어를 정렬할 때 이 정보를 간과하여 최적의 성능을 얻지 못했다. 본 논문은 의미론과 관계를 기반으로 멀티모달 정렬 및 융합을 개선하는 방법을 제안한다. 구체적으로, 다양한 비전 인코더로부터 다단계 의미론적 특징을 추출하여 관계의 시각적 단서를 더 많이 포착한다. 그런 다음, 관련 의미론을 그룹화하도록 비전 특징을 투영하며, 이 그룹 내에서 관계가 있을 가능성이 높다. 마지막으로, 상속 가능한 교차 어텐션을 사용하여 텍스트와 비전 특징을 융합하며, 낮은 상관관계를 가진 비전-언어 특징 쌍을 제거하여 불필요한 시각적 관계를 전역적으로 제거한다. 제안된 방법은 8개의 기반 모델과 시각적 질의 응답 및 이미지 캡셔닝이라는 두 가지 다운스트림 작업에서 평가되었으며, 모든 기존 방법을 능가하는 성능을 보였다.