Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GroundingDINO-US-SAM : Segmentation multi-organes par texte en échographie avec modèles vision-langage optimisés par LoRA

Created by
  • Haebom

Auteur

Hamza Rasaee, Taha Koleilat, Hassan Rivaz

Contour

Cet article souligne que la segmentation précise et généralisable des objets dans les images échographiques est difficile en raison des variations anatomiques, de la diversité des protocoles d'imagerie et du manque de données d'annotation. Pour y remédier, nous proposons un modèle vision-langage (VLM) basé sur des invites qui intègre Grounding DINO et SAM2. Nous utilisons 18 jeux de données échographiques accessibles au public (sein, thyroïde, foie, prostate, rein et muscles paravertébraux). Quinze jeux de données sont utilisés pour affiner et valider Grounding DINO par Low Rank Adaptation (LoRA), tandis que les trois autres sont utilisés pour tester les performances sur des distributions inconnues. Les résultats expérimentaux démontrent que la méthode proposée surpasse les méthodes de segmentation de pointe, notamment UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse et SAMUS, sur la plupart des jeux de données existants, conservant des performances robustes même sur des jeux de données inconnus sans ajustement supplémentaire. Cela démontre que VLM réduit la dépendance aux données d'annotation spécifiques à un organe à grande échelle et est prometteur pour une analyse d'images ultrasonores évolutive et robuste.

Takeaways, Limitations

Takeaways:
Démonstration de la supériorité de la segmentation d'objets d'images échographiques à l'aide de VLM basé sur des invites.
Excellentes performances de généralisation pour divers organes échographiques (sein, thyroïde, foie, prostate, rein et muscles paravertébraux).
Obtenez des performances améliorées par rapport aux méthodes de pointe existantes.
Réduction de la dépendance aux données d’annotation spécifiques à grande échelle et à long terme.
Présentation de capacités d'analyse d'images ultrasonores évolutives et puissantes.
Limitations:
Utilisation d’un nombre limité de jeux de données publics.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans des contextes cliniques réels.
La divulgation du code sera effectuée après l'acceptation du document.
👍