Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Grounding DINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models

Created by
  • Haebom

作者

Hamza Rasaee, Taha Koleilat, Hassan Rivaz

概要

この論文は、超音波画像の正確で一般化可能なオブジェクトの分割が解剖学的変異、さまざまな画像プロトコル、および限定された注釈データによって困難を経験していることを指摘し、この問題を解決するためにGrounding DINOとSAM2を統合したプロンプトベースの視覚言語モデル(VLM)を提案します。乳房、甲状腺、肝臓、前立腺、腎臓、脊椎周辺の筋肉など18個の公開超音波データセットを使用し、15個のデータセットでGrounding DINOをLow Rank Adaptation(LoRA)を用いて超音波領域に微調整し検証し、残りの3個のデータセットは未知の分布で性能を評価するため実験の結果、提案された方法は、UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse、SAMUSなどの最先端の分割方法が、ほとんどの既存のデータセットに対して優れており、追加の微調整なしに未知のデータセットでも強力なパフォーマンスを維持することを示しています。これらの結果は、VLMが拡張可能で堅牢な超音波画像解析に有望であることを強調し、大規模な長期特異的注釈データへの依存性を低減できることを示唆している。コードは受け入れ後code.sonography.aiに公開される予定です。

Takeaways、Limitations

Takeaways:
Grounding DINOとSAM2を統合したVLMを利用して、様々な超音波器官でのオブジェクト分割性能の向上。
最先端の方法を上回る性能を達成。
未知のデータセットでも強力なパフォーマンスを維持(追加の微調整なし)。
大規模な長期特異的注釈データに対する依存性の減少
拡張可能で堅牢な超音波画像解析の可能性を提示
Limitations:
提供されたデータセットの種類と分布の詳細な説明の欠如。
LoRAを用いた微調整の詳細な過程とハイパーパラメータに関する情報の欠如
Code.sonography.aiにコードを公開する予定ですが、まだ公開されていません。
実験結果の一般化の可能性に関する追加の検証が必要
👍