Este artículo destaca que la segmentación precisa y generalizable de objetos en imágenes de ultrasonido es un desafío debido a las variaciones anatómicas, los diversos protocolos de imagen y los datos de anotación limitados. Para abordar esto, proponemos un Modelo de Visión-Lenguaje (VLM) basado en indicaciones que integra Grounding DINO y SAM2. Utilizamos 18 conjuntos de datos de ultrasonido disponibles públicamente (mama, tiroides, hígado, próstata, riñón y músculos paraespinales). Quince conjuntos de datos se utilizan para el ajuste y la validación de Grounding DINO mediante Adaptación de Bajo Rango (LoRA), mientras que los tres restantes se utilizan para evaluar el rendimiento en distribuciones desconocidas. Los resultados experimentales demuestran que el método propuesto supera los métodos de segmentación de vanguardia, incluidos UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse y SAMUS, en la mayoría de los conjuntos de datos existentes, manteniendo un rendimiento robusto incluso en conjuntos de datos desconocidos sin ajuste adicional. Esto demuestra que VLM reduce la dependencia de datos de anotación específicos de órganos a gran escala y promete un análisis de imágenes de ultrasonido escalable y sólido.