본 논문은 다양한 표현, 도메인(예: 실내 및 실외), 모달리티(예: 텍스트, 이미지, 비디오)에서 유래한 특징들을 효과적으로 융합하는 방법을 제시합니다. 기존의 concatenation, element-wise 연산, 비선형 기법 등의 융합 방법들은 구조적 관계와 심층적인 특징 상호작용을 제대로 포착하지 못하고, 비효율적이거나 도메인 또는 모달리티 간 특징 정렬이 잘못될 수 있다는 한계를 지닙니다. 본 논문에서는 고차원 특징 공간 대신 저차원의 해석 가능한 그래프 공간으로 이동하여, 클립, 프레임, 패치, 토큰 등 여러 수준에서 특징 관계를 인코딩하는 관계 그래프를 구성합니다. 반복적인 그래프 관계 업데이트를 통해 더욱 심층적인 상호작용을 포착하고, 학습 가능한 그래프 융합 연산자를 도입하여 이러한 확장된 관계들을 통합하여 보다 효과적인 융합을 수행합니다. 본 연구는 관계 중심적이며, 동질적인 공간에서 작동하고, 수학적으로 원칙에 기반하여 다중 선형 다항식을 통한 element-wise 관계 점수 집계와 유사합니다. 비디오 이상 감지 작업에서 제안된 그래프 기반 융합 방법의 효과를 보여주며, 다중 표현, 다중 모달리티, 다중 도메인 특징 융합 작업에서 강력한 성능을 보입니다.