본 논문은 텍스트-비디오 검색(TVR) 시스템에서 데이터셋에 존재하는 시각-언어적 편향으로 인해 주요 세부 사항이 간과되는 문제를 해결하기 위해 BiMa 프레임워크를 제안합니다. BiMa는 비디오의 시각적 표현과 텍스트의 표현 모두에서 편향을 완화하도록 설계되었습니다. 비디오에 대해서는 관련 개체/객체와 활동을 식별하여 장면 요소를 생성하고 이를 비디오 임베딩에 통합하여 세부적인 정보를 강조합니다. 텍스트에 대해서는 텍스트 특징을 내용과 편향 요소로 분리하여 모델이 의미 있는 내용에 집중하고 편향된 정보는 별도로 처리하도록 합니다. 다섯 가지 주요 TVR 벤치마크(MSR-VTT, MSVD, LSMDC, ActivityNet, DiDeMo)에 대한 광범위한 실험과 ablation study를 통해 BiMa의 경쟁력 있는 성능과 편향 완화 능력을 검증했습니다. 특히, 분포 외 검색 작업에서 강력한 결과를 보여주었습니다.