Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HoneyBee : un cadre modulaire évolutif pour la création d'ensembles de données oncologiques multimodaux avec des modèles d'intégration fondamentaux

Created by
  • Haebom

Auteur

Aakash Tripathi, Asim Waqas, Matthew B. Schabath, Yasin Yilmaz, Ghulam Rasool

Contour

HONeYBEE est une plateforme open source d'intégration de données biomédicales multimodales destinée aux applications oncologiques. Elle traite des données cliniques structurées et non structurées, des images de lames entières, des scanners radiologiques et des profils moléculaires, générant des intégrations intégrées au niveau du patient à l'aide de modèles de base spécifiques au domaine et de stratégies de fusion. Ces intégrations permettent la prédiction de la survie, la classification des types de cancer, la recherche de similarités entre patients et le regroupement de cohortes. Évaluées sur plus de 11 400 patients atteints de 33 types de cancer du TCGA, les intégrations cliniques ont démontré les meilleures performances unimodales, avec une précision de classification de 98,5 % et une précision de 96,4 % à 10 pour la recherche de patients. Elle a également obtenu l'indice de concordance de prédiction de survie le plus élevé pour la plupart des types de cancer. La fusion multimodale offre des avantages complémentaires pour certains cancers, améliorant la prédiction de la survie globale au-delà des seuls résultats cliniques. Les évaluations comparatives de quatre modèles linguistiques à grande échelle montrent que les modèles à usage général comme Qwen3 améliorent les performances de réglage fin spécifiques aux tâches sur des données hétérogènes telles que les rapports de pathologie, mais surpassent les modèles médicaux spécialisés sur la représentation de textes cliniques.

Takeaways, Limitations

Takeaways: Nous présentons un cadre efficace pour l'intégration de diverses modalités de données médicales afin d'améliorer la recherche en oncologie et les performances de prédiction. Plus précisément, nous démontrons la performance supérieure des intégrations basées sur les données cliniques. Nous démontrons le potentiel d'amélioration des prévisions de survie grâce à la fusion multimodale. Nous validons également les performances d'un LLM polyvalent pour le traitement des données médicales.
Limitations : Dépendance à l'ensemble de données TCGA. La généralisabilité à d'autres ensembles de données doit être vérifiée. L'efficacité de la fusion multimodale pour certains types de cancer peut être limitée. Des recherches supplémentaires sont nécessaires pour déterminer l'interprétabilité et le pouvoir explicatif du modèle.
👍