Sign In

Improving vision-language alignment with graph spiking hybrid Networks

Created by
  • Haebom
Category
Empty

저자

Siyu Zhang, Wenzhe Liu, Yeming Chen, Yiming Wu, Heming Zheng, Cheng Cheng

개요

본 논문은 시각과 언어 간의 의미 차이를 해소하기 위해, 시각적 의미의 다양성, 추상적 표현, 모델의 일반화 능력을 고려한 새로운 시각적 의미 표현 모듈과 네트워크를 제안합니다. 기존 연구들의 한계점인 세밀한 객체 간의 문맥 관계 포착 부족을 해결하기 위해, 팬옵틱 분할을 이용하여 정교한 시각적 의미 특징을 생성합니다. 그래프 스파이킹 하이브리드 네트워크(GSHN)를 제안하여 SNN과 GAT의 장점을 통합하고, 개체의 이산 및 연속 잠재 변수와 지역 및 전역 문맥 특징을 효과적으로 인코딩합니다. SNN의 시공간적 특성을 활용한 대조 학습(CL)을 통해 계산 비용을 줄이고 의미있는 시각적 표현을 풍부하게 합니다. 또한, 텍스트 특징을 이용한 새로운 사전 학습 방법인 Spiked Text Learning (STL)을 제안하여 이산적 의미의 인코딩 능력을 향상시킵니다. 실험 결과, 제안된 GSHN은 다양한 시각-언어 하위 작업에서 우수한 성능을 보입니다.

시사점, 한계점

시사점:
팬옵틱 분할 기반의 정교한 시각적 의미 표현 모듈 제시
SNN과 GAT를 통합한 GSHN을 통해 시각적 의미 정보의 효과적인 인코딩
대조 학습을 통한 계산 효율성 증대 및 의미있는 시각적 표현 풍부화
STL을 통한 이산적 의미 인코딩 능력 향상
다양한 시각-언어 하위 작업에서 우수한 성능 달성
한계점:
제안된 모델의 복잡성 및 계산 비용에 대한 추가적인 분석 필요
다양한 데이터셋 및 작업에 대한 일반화 성능 평가 필요
팬옵틱 분할의 정확도에 대한 의존성 분석 필요
STL의 효과에 대한 심층적인 분석 필요
👍