Dans cet article, nous proposons MedTok, qui améliore la tokenisation des données médicales utilisées dans le modèle de base entraîné sur les dossiers médicaux électroniques (DME) des patients. Alors que les méthodes de tokenisation existantes traitent les codes médicaux comme de simples tokens textuels, MedTok prend en compte la description textuelle d'un code médical, sa position hiérarchique et ses relations avec d'autres codes (par exemple, cooccurrence de maladies, associations de traitements médicamenteux). Il traite le texte et la structure relationnelle à l'aide d'un encodeur de modèle de langage et d'un encodeur de graphe, et les quantifie dans un espace de tokens unifié afin de préserver les caractéristiques des modalités et les informations intermodales. Dans diverses expériences (prédiction, classification des diagnostics, recommandation de médicaments et stratification des risques) utilisant les jeux de données MIMIC-III, MIMIC-IV et EHRShot, il améliore l'AUPRC par rapport aux méthodes de tokenisation existantes et affiche d'excellentes performances, notamment en matière de recommandation de médicaments. De plus, nous avons appliqué MedTok à un système d'assurance qualité médicale et confirmé son amélioration des performances.