Bài báo này nhấn mạnh rằng việc phân đoạn đối tượng chính xác và tổng quát trong hình ảnh siêu âm là một thách thức do sự đa dạng về giải phẫu, các giao thức hình ảnh khác nhau và dữ liệu chú thích hạn chế. Để giải quyết vấn đề này, chúng tôi đề xuất một Mô hình Ngôn ngữ Thị giác (VLM) dựa trên lời nhắc, tích hợp Grounding DINO và SAM2. Chúng tôi sử dụng 18 bộ dữ liệu siêu âm có sẵn công khai (vú, tuyến giáp, gan, tuyến tiền liệt, thận và cơ cạnh sống). Mười lăm bộ dữ liệu được sử dụng để tinh chỉnh và xác thực Grounding DINO bằng phương pháp Thích ứng Hạng Thấp (LoRA), trong khi ba bộ dữ liệu còn lại được sử dụng để thử nghiệm nhằm đánh giá hiệu suất trên các phân phối chưa biết. Kết quả thực nghiệm chứng minh rằng phương pháp được đề xuất vượt trội hơn các phương pháp phân đoạn hiện đại, bao gồm UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse và SAMUS, trên hầu hết các bộ dữ liệu hiện có, duy trì hiệu suất mạnh mẽ ngay cả trên các bộ dữ liệu chưa biết mà không cần tinh chỉnh bổ sung. Điều này chứng tỏ rằng VLM giảm sự phụ thuộc vào dữ liệu chú thích cụ thể cho từng cơ quan quy mô lớn và hứa hẹn mang lại khả năng mở rộng và phân tích hình ảnh siêu âm mạnh mẽ.