Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mémorisation dans les grands modèles linguistiques en médecine : prévalence, caractéristiques et implications

Created by
  • Haebom

Auteur

Anran Li, Lingfei Qian, Mengmeng Du, Yu Yin, Yan Hu, Zihao Sun, Yihang Fu, Erica Stutz, Xuguang Ai, Qianqian

Contour

Cet article présente la première évaluation exhaustive de la mémorisation de données dans les modèles linguistiques à grande échelle (MLH) dans le domaine de la santé. Nous avons analysé systématiquement trois scénarios d'adaptation courants : pré-apprentissage continu sur un corpus médical, affinement sur une référence médicale standard et affinement sur des données cliniques réelles, dont plus de 13 000 dossiers d'hospitalisation du Yale New Haven Health System. Nous avons ainsi évalué la fréquence, la nature, la quantité et l'impact potentiel de la mémorisation dans les LMH. Les résultats montrent que la mémorisation est significativement plus fréquente dans tous les scénarios d'adaptation que dans le domaine général, ce qui suggère des implications pour le développement et l'adoption des LMH dans le domaine de la santé. Le contenu mémorisé est classé en trois types : informatif (par exemple, reproduction fidèle de recommandations cliniques et de références biomédicales), non informatif (par exemple, avertissements répétitifs ou formulation stéréotypée de documents médicaux) et préjudiciable (par exemple, reproduction de contenu clinique sensible ou spécifique à un ensemble de données). Nous proposons des recommandations pratiques pour favoriser une mémorisation bénéfique, minimiser la mémorisation non informative et atténuer la mémorisation préjudiciable.

Takeaways, Limitations

Takeaways:
Fournit une analyse complète de la fréquence, des caractéristiques, de la quantité et de l'impact de la mémorisation des données dans les LLM médicaux.
Classez les types de mémorisation en trois catégories : bénéfique, non informative et nuisible, et présentez clairement leurs caractéristiques.
Souligner l’importance de la mémorisation dans le développement et l’application des LLM médicaux.
Des recommandations pratiques sont présentées pour favoriser une mémorisation bénéfique, minimiser la mémorisation non informative et atténuer la mémorisation nuisible.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si les caractéristiques des ensembles de données analysés dans cette étude (par exemple, les caractéristiques des données du Yale New Haven Health System) peuvent être généralisées à d’autres ensembles de données médicales.
Des recherches supplémentaires sont nécessaires sur les méthodes de mesure et d’évaluation quantitatives des phénomènes de mémorisation.
Des recherches supplémentaires sont nécessaires pour examiner les différences de mémorisation entre les différentes architectures LLM et méthodes de formation.
👍