Dans cet article, nous proposons un nouveau cadre, BiMa, pour résoudre le problème du biais visuo-linguistique dans les systèmes de conversion de texte en vidéo (TVR). BiMa se concentre sur l'atténuation des biais dans la représentation visuelle des vidéos et la représentation linguistique des textes. Pour l'atténuation visuelle des vidéos, nous identifions les objets et activités pertinents dans les vidéos afin de générer des éléments de scène et de les intégrer dans des intégrations vidéo pour mettre en évidence les détails fins et importants. Pour l'atténuation linguistique des textes, nous introduisons un mécanisme permettant de séparer les caractéristiques textuelles en éléments de contenu et de biais afin que le modèle puisse se concentrer sur le contenu significatif. Grâce à des expériences approfondies et à des études d'ablation sur cinq benchmarks TVR majeurs (MSR-VTT, MSVD, LSMDC, ActivityNet et DiDeMo), nous vérifions les performances concurrentielles de BiMa et sa capacité à atténuer les biais. En particulier, nous obtenons d'excellents résultats sur les tâches de récupération hors distribution, démontrant sa capacité à atténuer les biais.