Cet article propose l'intégration multi-invites adaptative au contexte, une nouvelle méthode d'enrichissement des représentations sémantiques dans l'apprentissage contrastif du langage visuel. Contrairement aux modèles CLIP existants qui reposent sur une seule intégration textuelle, cette étude introduit plusieurs invites structurées, chacune contenant des jetons adaptatifs uniques capturant différents aspects sémantiques du texte d'entrée. Dans le cadre CLIP, nous utilisons un LLM pré-entraîné comme encodeur de texte pour traiter conjointement toutes les invites en une seule passe. Les intégrations d'invites résultantes sont combinées en une représentation textuelle unifiée, permettant un alignement sémantique plus riche avec les caractéristiques visuelles. Afin d'améliorer encore la diversité sémantique et la qualité de la représentation, nous intégrons les pertes de régularisation de la diversité et les pertes de reconnaissance de négation afin de favoriser la spécialisation entre les invites et d'améliorer la discrimination contrastive. Notre méthode permet d'obtenir des gains de performance constants lors des tests de conversion image-texte et vidéo-texte.