Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
CRISP-SAM2 : SAM2 avec interaction intermodale et invite sémantique pour la segmentation multi-organes
Created by
Haebom
Auteur
Xinlei Yu, Changmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
Contour
CRISP-SAM2 est un modèle de segmentation médicale multi-organes qui joue un rôle important dans le traitement des images médicales. Pour résoudre les problèmes d'inexactitude des détails, de dépendance aux signaux géométriques et de perte d'informations spatiales des modèles existants, nous présentons un nouveau modèle utilisant l'interaction intermodale et les signaux sémantiques. Nous transformons les entrées visuelles et textuelles en significations contextualisées intermodales grâce à un mécanisme avancé d'interaction d'attention croisée, et les introduisons dans l'encodeur d'images pour améliorer la compréhension des informations visuelles. Nous utilisons une stratégie de signaux sémantiques pour supprimer la dépendance aux signaux géométriques, et appliquons une stratégie d'auto-actualisation de la mémoire alignée sur la similarité, ainsi qu'un processus d'amélioration du masque pour s'adapter aux images médicales et améliorer les détails locaux. Les expériences comparatives sur sept jeux de données publics montrent que notre modèle surpasse les modèles existants et, en particulier, qu'il résout efficacement le Limitations des modèles existants. Le code est disponible à l' adresse https://github.com/YU-deep/CRISP_SAM2.git .
Traiter efficacement les Limitations (détails inexacts, dépendance géométrique des invites, perte d'informations spatiales) des modèles existants dans la segmentation des soins de santé multi-institutionnels.
◦
Exploitez efficacement les informations visuelles et textuelles grâce à une interaction intermodale et à des invites sémantiques.
◦
Amélioration des détails locaux grâce à une stratégie d'auto-mise à jour alignée sur la similarité pour la mémoire et un processus de raffinement du masque.
◦
Nous validons que notre modèle surpasse les modèles existants sur sept ensembles de données publics.
◦
La reproductibilité est possible grâce au code ouvert.
•
Limitations:
◦
Le Limitations spécifique n'est pas explicitement mentionné dans l'article. Des expériences et analyses complémentaires pourraient être nécessaires pour une évaluation plus approfondie.
◦
Il peut y avoir une possibilité de performances réduites pour certains types d'images médicales ou d'institutions.
◦
Manque d’analyse détaillée du coût de calcul et de la complexité du modèle.