본 논문은 텍스트-비디오 검색(TVR) 시스템의 시각-언어적 편향 문제를 해결하기 위해 새로운 프레임워크인 BiMa를 제안합니다. BiMa는 비디오의 시각적 표현과 텍스트의 언어적 표현 모두에서 편향을 완화하는 데 중점을 둡니다. 비디오의 시각적 편향 완화를 위해, 비디오 내 관련 개체, 객체, 활동을 식별하여 장면 요소를 생성하고 이를 비디오 임베딩에 통합하여 세밀하고 중요한 세부 정보를 강조합니다. 텍스트의 언어적 편향 완화를 위해, 텍스트 특징을 내용과 편향 요소로 분리하는 메커니즘을 도입하여 모델이 의미 있는 내용에 집중하도록 합니다. 다섯 가지 주요 TVR 벤치마크(MSR-VTT, MSVD, LSMDC, ActivityNet, DiDeMo)에 대한 광범위한 실험과 ablation study를 통해 BiMa의 경쟁력 있는 성능과 편향 완화 능력을 검증합니다. 특히, 분포 외 검색 작업에서 강력한 결과를 보임으로써 편향 완화 능력을 입증합니다.