Cet article présente la première évaluation exhaustive de la mémorisation de données dans les modèles linguistiques à grande échelle (MLH) dans le domaine de la santé. Nous avons analysé systématiquement trois scénarios d'adaptation courants : pré-apprentissage continu sur un corpus médical, affinement sur une référence médicale standard et affinement sur des données cliniques réelles, dont plus de 13 000 dossiers d'hospitalisation du Yale New Haven Health System. Nous avons ainsi évalué la fréquence, la nature, la quantité et l'impact potentiel de la mémorisation dans les LMH. Les résultats montrent que la mémorisation est significativement plus fréquente dans tous les scénarios d'adaptation que dans le domaine général, ce qui suggère des implications pour le développement et l'adoption des LMH dans le domaine de la santé. Le contenu mémorisé est classé en trois types : informatif (par exemple, reproduction fidèle de recommandations cliniques et de références biomédicales), non informatif (par exemple, avertissements répétitifs ou formulation stéréotypée de documents médicaux) et préjudiciable (par exemple, reproduction de contenu clinique sensible ou spécifique à un ensemble de données). Nous proposons des recommandations pratiques pour favoriser une mémorisation bénéfique, minimiser la mémorisation non informative et atténuer la mémorisation préjudiciable.