GAIS는 텍스트와 시간적으로 풍부한 오디오-비디오 신호 간의 정확한 정렬을 목표로 하는 텍스트-비디오 검색 프레임워크입니다. 이 프레임워크는 표현 학습과 정규화 관점에서 다중 모드 정렬을 강화합니다. Frame-level Gated Fusion (FGF) 모듈은 텍스트 안내에 따라 오디오-비주얼 특징을 적응적으로 통합하여 유용한 프레임의 세분화된 시간적 선택을 가능하게 합니다. Semantic Variance-Scaled Perturbation (SVSP) 메커니즘은 의미 인식 방식으로 섭동 크기를 제어하여 텍스트 임베딩 공간을 정규화합니다. FGF는 선택적 융합을 통해 모드 간의 격차를 최소화하고, SVSP는 임베딩 안정성과 구별 능력을 향상시킵니다. MSR-VTT, DiDeMo, LSMDC, VATEX 데이터셋에 대한 실험에서 GAIS는 여러 검색 메트릭에서 강력한 기반 모델보다 우수한 성능을 보이며 계산 효율성도 유지함을 입증했습니다.