Bài báo này nhấn mạnh rằng việc phân đoạn đối tượng chính xác và tổng quát trong hình ảnh siêu âm là một thách thức do các biến thể giải phẫu, các giao thức hình ảnh đa dạng và dữ liệu chú thích hạn chế. Để giải quyết thách thức này, chúng tôi đề xuất một mô hình ngôn ngữ trực quan dựa trên lời nhắc (VLM) tích hợp Grounding DINO và SAM2. Sử dụng 18 bộ dữ liệu siêu âm có sẵn công khai, bao gồm vú, tuyến giáp, gan, tuyến tiền liệt, thận và cơ cạnh sống, Grounding DINO được tinh chỉnh và xác thực trên 15 bộ dữ liệu bằng cách sử dụng Thích ứng hạng thấp (LoRA) trong miền siêu âm. Ba bộ dữ liệu còn lại được sử dụng để thử nghiệm nhằm đánh giá hiệu suất trên các phân phối chưa biết. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội hơn các phương pháp phân đoạn hiện đại, bao gồm UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse và SAMUS, trên hầu hết các bộ dữ liệu hiện có, duy trì hiệu suất mạnh mẽ ngay cả trên các bộ dữ liệu chưa biết mà không cần tinh chỉnh thêm. Những kết quả này nhấn mạnh tiềm năng của VLM trong việc phân tích hình ảnh siêu âm mạnh mẽ và có thể mở rộng, đồng thời cho thấy nó có thể giảm sự phụ thuộc vào dữ liệu chú thích cụ thể cho từng cơ quan trên quy mô lớn. Mã nguồn sẽ được công bố tại code.sonography.ai sau khi được chấp thuận.