इस पत्र में, हम टेक्स्ट-टू-वीडियो रिट्रीवल (TVR) सिस्टम में दृश्य-भाषाई पूर्वाग्रह समस्या को संबोधित करने के लिए एक नया ढाँचा, BiMa प्रस्तावित करते हैं। BiMa वीडियो के दृश्य प्रतिनिधित्व और टेक्स्ट के भाषाई प्रतिनिधित्व दोनों में पूर्वाग्रह को कम करने पर ध्यान केंद्रित करता है। वीडियो के दृश्य शमन के लिए, हम दृश्य तत्वों को उत्पन्न करने के लिए वीडियो में प्रासंगिक वस्तुओं, वस्तुओं और गतिविधियों की पहचान करते हैं और उन्हें वीडियो एम्बेडिंग में एकीकृत करते हैं ताकि बारीक और महत्वपूर्ण विवरणों को उजागर किया जा सके। टेक्स्ट के भाषाई शमन के लिए, हम टेक्स्ट सुविधाओं को सामग्री और पूर्वाग्रह तत्वों में अलग करने के लिए एक तंत्र पेश करते हैं ताकि मॉडल सार्थक सामग्री पर ध्यान केंद्रित कर सके। पाँच प्रमुख TVR बेंचमार्क (MSR-VTT, MSVD, LSMDC, ActivityNet और DiDeMo) पर व्यापक प्रयोगों और पृथक्करण अध्ययनों के माध्यम से, हम BiMa के प्रतिस्पर्धी प्रदर्शन और पूर्वाग्रह शमन क्षमता को सत्यापित करते हैं। विशेष रूप से, हम आउट-ऑफ-डिस्ट्रीब्यूशन रिट्रीवल कार्यों पर मजबूत परिणाम प्रदर्शित करते हैं, जो इसकी पूर्वाग्रह शमन क्षमता को प्रदर्शित करते हैं।