Sign In

Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion

Created by
  • Haebom
Category
Empty

저자

Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz

개요

본 논문은 다양한 표현, 도메인(예: 실내 및 실외), 모달리티(예: 텍스트, 이미지, 비디오)에서 유래한 특징들을 효과적으로 융합하는 방법을 제시합니다. 기존의 concatenation, element-wise 연산, 비선형 기법 등의 융합 방법들은 구조적 관계와 심층적인 특징 상호작용을 제대로 포착하지 못하고, 비효율적이거나 도메인 또는 모달리티 간 특징 정렬이 잘못될 수 있다는 한계를 지닙니다. 본 논문에서는 고차원 특징 공간 대신 저차원의 해석 가능한 그래프 공간으로 이동하여, 클립, 프레임, 패치, 토큰 등 여러 수준에서 특징 관계를 인코딩하는 관계 그래프를 구성합니다. 반복적인 그래프 관계 업데이트를 통해 더욱 심층적인 상호작용을 포착하고, 학습 가능한 그래프 융합 연산자를 도입하여 이러한 확장된 관계들을 통합하여 보다 효과적인 융합을 수행합니다. 본 연구는 관계 중심적이며, 동질적인 공간에서 작동하고, 수학적으로 원칙에 기반하여 다중 선형 다항식을 통한 element-wise 관계 점수 집계와 유사합니다. 비디오 이상 감지 작업에서 제안된 그래프 기반 융합 방법의 효과를 보여주며, 다중 표현, 다중 모달리티, 다중 도메인 특징 융합 작업에서 강력한 성능을 보입니다.

시사점, 한계점

시사점:
다양한 모달리티와 도메인의 특징을 효과적으로 융합하는 새로운 그래프 기반 방법 제시
저차원의 해석 가능한 그래프 공간을 활용하여 효율성 및 해석력 향상
반복적인 그래프 관계 업데이트를 통해 심층적인 특징 상호작용 포착
비디오 이상 감지에서 우수한 성능을 보임
수학적으로 원칙에 기반한 융합 방법 제시
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 다른 비전 작업에 대한 적용성 검증 필요
그래프 구조 설계 및 학습 과정의 복잡성에 대한 분석 필요
대규모 데이터셋에 대한 적용 시의 계산 비용 및 효율성 평가 필요
👍