Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models

Created by
  • Haebom

作者

Hamza Rasaee, Taha Koleilat, Hassan Rivaz

概要

本論文は、超音波画像における正確で一般化可能な物体分割が、解剖学的変異、様々な画像プロトコル、限定された注釈データのために困難を経験していることを指摘している。これを解決するために、Grounding DINOとSAM2を統合したプロンプトベースのビジョン言語モデル(VLM)を提案します。 18個の公開超音波データセット(乳房、甲状腺、肝臓、前立腺、腎臓、脊椎周辺の筋肉)を使用して、15個のデータセットはGrounding DINOのLow Rank Adaptation(LoRA)を用いた微調整と検証に、残りの3つは未知の分布で性能を評価するためのテストに使用しました。実験の結果、提案された方法は、UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse、SAMUSなどの最先端の分割方法が、ほとんどの既存のデータセットに対して優れており、追加の微調整なしに未知のデータセットでも強力なパフォーマンスを維持することを示しています。これは、VLMが大規模で長期の特定の注釈データへの依存性を低減し、拡張可能で強力な超音波画像解析に有望であることを示している。

Takeaways、Limitations

Takeaways:
プロンプトベースのVLMを用いた超音波画像オブジェクト分割の卓越性を実証
様々な超音波臓器(乳房、甲状腺、肝臓、前立腺、腎臓、脊椎周辺の筋肉)に対する一般化性能に優れている。
従来の最先端の方法と比較して改善された性能を達成。
大規模長期特定注釈データへの依存度の減少
拡張可能で強力な超音波画像解析の可能性の提示
Limitations:
限られた数のパブリックデータセットを使用してください。
実際の臨床環境における一般化性能に関するさらなる研究が必要
コード公開は論文受諾後に行われる予定。
👍