本論文は、超音波画像における正確で一般化可能な物体分割が、解剖学的変異、様々な画像プロトコル、限定された注釈データのために困難を経験していることを指摘している。これを解決するために、Grounding DINOとSAM2を統合したプロンプトベースのビジョン言語モデル(VLM)を提案します。 18個の公開超音波データセット(乳房、甲状腺、肝臓、前立腺、腎臓、脊椎周辺の筋肉)を使用して、15個のデータセットはGrounding DINOのLow Rank Adaptation(LoRA)を用いた微調整と検証に、残りの3つは未知の分布で性能を評価するためのテストに使用しました。実験の結果、提案された方法は、UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse、SAMUSなどの最先端の分割方法が、ほとんどの既存のデータセットに対して優れており、追加の微調整なしに未知のデータセットでも強力なパフォーマンスを維持することを示しています。これは、VLMが大規模で長期の特定の注釈データへの依存性を低減し、拡張可能で強力な超音波画像解析に有望であることを示している。