Cet article souligne que la segmentation précise et généralisable des objets dans les images échographiques est difficile en raison des variations anatomiques, de la diversité des protocoles d'imagerie et du manque de données d'annotation. Pour y remédier, nous proposons un modèle vision-langage (VLM) basé sur des invites qui intègre Grounding DINO et SAM2. Nous utilisons 18 jeux de données échographiques accessibles au public (sein, thyroïde, foie, prostate, rein et muscles paravertébraux). Quinze jeux de données sont utilisés pour affiner et valider Grounding DINO par Low Rank Adaptation (LoRA), tandis que les trois autres sont utilisés pour tester les performances sur des distributions inconnues. Les résultats expérimentaux démontrent que la méthode proposée surpasse les méthodes de segmentation de pointe, notamment UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse et SAMUS, sur la plupart des jeux de données existants, conservant des performances robustes même sur des jeux de données inconnus sans ajustement supplémentaire. Cela démontre que VLM réduit la dépendance aux données d'annotation spécifiques à un organe à grande échelle et est prometteur pour une analyse d'images ultrasonores évolutive et robuste.