본 논문은 시각과 언어 간의 의미 차이를 해소하기 위해, 시각적 의미의 다양성, 추상적 표현, 모델의 일반화 능력을 고려한 새로운 시각적 의미 표현 모듈과 네트워크를 제안합니다. 기존 연구들의 한계점인 세밀한 객체 간의 문맥 관계 포착 부족을 해결하기 위해, 팬옵틱 분할을 이용하여 정교한 시각적 의미 특징을 생성합니다. 그래프 스파이킹 하이브리드 네트워크(GSHN)를 제안하여 SNN과 GAT의 장점을 통합하고, 개체의 이산 및 연속 잠재 변수와 지역 및 전역 문맥 특징을 효과적으로 인코딩합니다. SNN의 시공간적 특성을 활용한 대조 학습(CL)을 통해 계산 비용을 줄이고 의미있는 시각적 표현을 풍부하게 합니다. 또한, 텍스트 특징을 이용한 새로운 사전 학습 방법인 Spiked Text Learning (STL)을 제안하여 이산적 의미의 인코딩 능력을 향상시킵니다. 실험 결과, 제안된 GSHN은 다양한 시각-언어 하위 작업에서 우수한 성능을 보입니다.