この論文は、超音波画像の正確で一般化可能なオブジェクトの分割が解剖学的変異、さまざまな画像プロトコル、および限定された注釈データによって困難を経験していることを指摘し、この問題を解決するためにGrounding DINOとSAM2を統合したプロンプトベースの視覚言語モデル(VLM)を提案します。乳房、甲状腺、肝臓、前立腺、腎臓、脊椎周辺の筋肉など18個の公開超音波データセットを使用し、15個のデータセットでGrounding DINOをLow Rank Adaptation(LoRA)を用いて超音波領域に微調整し検証し、残りの3個のデータセットは未知の分布で性能を評価するため実験の結果、提案された方法は、UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse、SAMUSなどの最先端の分割方法が、ほとんどの既存のデータセットに対して優れており、追加の微調整なしに未知のデータセットでも強力なパフォーマンスを維持することを示しています。これらの結果は、VLMが拡張可能で堅牢な超音波画像解析に有望であることを強調し、大規模な長期特異的注釈データへの依存性を低減できることを示唆している。コードは受け入れ後code.sonography.aiに公開される予定です。