Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Tokeniseur de codes médicaux multimodaux

Created by
  • Haebom

Auteur

Xiaorui Su, Shvat Messica, Yepeng Huang, Ruth Johnson, Lukas Fesser, Shanghua Gao, Faryad Sahneh, Marinka Zitnik

Contour

Dans cet article, nous proposons MedTok, qui améliore la tokenisation des données médicales utilisées dans le modèle de base entraîné sur les dossiers médicaux électroniques (DME) des patients. Alors que les méthodes de tokenisation existantes traitent les codes médicaux comme de simples tokens textuels, MedTok prend en compte la description textuelle d'un code médical, sa position hiérarchique et ses relations avec d'autres codes (par exemple, cooccurrence de maladies, associations de traitements médicamenteux). Il traite le texte et la structure relationnelle à l'aide d'un encodeur de modèle de langage et d'un encodeur de graphe, et les quantifie dans un espace de tokens unifié afin de préserver les caractéristiques des modalités et les informations intermodales. Dans diverses expériences (prédiction, classification des diagnostics, recommandation de médicaments et stratification des risques) utilisant les jeux de données MIMIC-III, MIMIC-IV et EHRShot, il améliore l'AUPRC par rapport aux méthodes de tokenisation existantes et affiche d'excellentes performances, notamment en matière de recommandation de médicaments. De plus, nous avons appliqué MedTok à un système d'assurance qualité médicale et confirmé son amélioration des performances.

Takeaways, Limitations_

Takeaways:
Nous présentons MedTok, une nouvelle méthode de tokenisation qui exploite à la fois les descriptions textuelles et les informations relationnelles des codes médicaux.
Amélioration des performances vérifiée expérimentalement par rapport aux méthodes existantes dans divers modèles et tâches de DSE.
Suggère une extension potentielle à d’autres applications médicales, telles que les systèmes d’assurance qualité médicale.
Il montre une amélioration significative des performances, notamment dans les tâches de recommandation de médicaments.
Limitations:
L'amélioration des performances de MedTok peut varier selon les ensembles de données (différences de performances dans MIMIC-III, MIMIC-IV et EHRShot).
Des recherches supplémentaires sont nécessaires sur l’évolutivité de MedTok pour gérer efficacement plus de 600 000 codes médicaux.
Une analyse comparative plus approfondie avec d’autres modèles de langage médical ou techniques de tokenisation est nécessaire.
👍