Este artículo propone la incrustación de múltiples indicaciones adaptativa al contexto, un método novedoso para enriquecer las representaciones semánticas en el aprendizaje contrastivo visual-lingüístico. A diferencia de los modelos de estilo CLIP existentes, que se basan en una única incrustación de texto, este estudio introduce múltiples indicaciones estructuradas, cada una con tokens adaptativos únicos que capturan diferentes aspectos semánticos del texto de entrada. Dentro del marco CLIP, utilizamos un LLM preentrenado como codificador de texto para procesar conjuntamente todas las indicaciones en una sola pasada. Las incrustaciones de indicaciones resultantes se combinan en una representación textual unificada, lo que permite una alineación semántica más rica con las características visuales. Para mejorar aún más la diversidad semántica y la calidad representativa, incorporamos pérdidas por regularización de la diversidad y pérdidas por reconocimiento de negación para fomentar la especialización entre indicaciones y mejorar la discriminación contrastiva. Nuestro método logra mejoras consistentes en el rendimiento en las pruebas de recuperación de imagen a texto y de vídeo a texto.