Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprendre à diagnostiquer en privé : LLMs optimisés par DP pour la classification des rapports de radiologie

Created by
  • Haebom

Auteur

Payel Bhattacharjee, Fengwei Tian, Geoffrey D. Rubin, Joseph Y. Lo, Nirav Merchant, Heidi Hanson, John Gounley, Ravi Tandon

Contour

Cette étude propose un cadre pour affiner un modèle de langage à grande échelle (LLM) utilisant la confidentialité différentielle (DP) pour la classification multi-objets à partir du texte des rapports d'imagerie médicale. En injectant du bruit compensé pendant le processus d'affinement, nous visons à atténuer les risques de confidentialité associés aux données sensibles des patients et à prévenir les fuites de données tout en maintenant les performances de classification. À l'aide de 50 232 rapports d'imagerie médicale issus de données de radiographie thoracique MIMIC-CXR et de tomodensitométrie CT-RATE accessibles au public, collectées entre 2011 et 2019, nous avons affiné le LLM en utilisant l'adaptation basse dimensionnelle à confidentialité différentielle (DP-LoRA) sur trois architectures de modèles : BERT-medium, BERT-small et ALBERT-base, afin de classer 14 étiquettes de l'ensemble de données MIMIC-CXR et 18 étiquettes de l'ensemble de données CT-RATE. Nous avons évalué les performances du modèle à l'aide du score F1 pondéré à différents niveaux de confidentialité (budget de confidentialité = {0,01, 0,1, 1,0, 10,0}) et comparé les performances du modèle à différents niveaux de confidentialité afin de quantifier le compromis confidentialité-utilité. Les résultats expérimentaux ont révélé un compromis clair confidentialité-utilité sur deux ensembles de données différents et trois modèles différents. Sous des garanties de confidentialité modérées, le modèle affiné DP a obtenu des scores F1 pondérés de 0,88 pour MIMIC-CXR et de 0,59 pour CT-RATE, démontrant des performances relativement similaires aux modèles de base LoRA non préservant la confidentialité (0,90 et 0,78, respectivement). En conclusion, l'affinage différentiel préservant la confidentialité à l'aide de LoRA permet une classification multi-maladies efficace et préservant la confidentialité, relevant ainsi les principaux défis de l'affinage LLM sur les données médicales sensibles.

Takeaways, Limitations

Takeaways:
Nous présentons la possibilité d'obtenir simultanément une protection de la confidentialité des données médicales et une amélioration des performances LLM en utilisant des techniques de confidentialité différentielle (DP).
Une méthode efficace de réglage fin LLM basée sur DP utilisant LoRA est présentée.
La généralisabilité a été vérifiée par des expériences sur divers ensembles de données médicales et architectures de modèles.
Maintient des performances de classification relativement élevées même à des niveaux de confidentialité intermédiaires.
Limitations:
Il existe un compromis entre le niveau de confidentialité et les performances du modèle (compromis confidentialité-utilité).
Des différences de performances peuvent survenir en fonction des caractéristiques de l'ensemble de données utilisé (dégradation des performances de l'ensemble de données CT-RATE par rapport à MIMIC-CXR).
D’autres expériences sont nécessaires sur des ensembles de données médicales et des architectures LLM plus diversifiés.
Une validation supplémentaire est nécessaire pour une application dans des contextes cliniques réels.
👍