Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendiendo a diagnosticar de forma privada: LLM con tecnología de DP para la clasificación de informes de radiología

Created by
  • Haebom

Autor

Payel Bhattacharjee, Fengwei Tian, Geoffrey D. Rubin, Joseph Y. Lo, Nirav Merchant, Heidi Hanson, John Gounley, Ravi Tandon

Describir

Este estudio propone un marco para el ajuste fino de un modelo de lenguaje a gran escala (LLM) mediante privacidad diferencial (PD) para la clasificación multiobjeto a partir del texto de informes de imágenes médicas. Mediante la inyección de ruido compensado durante el proceso de ajuste fino, buscamos mitigar los riesgos de privacidad asociados con datos sensibles de pacientes y prevenir la fuga de datos, manteniendo al mismo tiempo el rendimiento de la clasificación. Utilizando 50.232 informes de imágenes médicas de los conjuntos de datos públicos de radiografías de tórax MIMIC-CXR y tomografía computarizada CT-RATE, recopilados entre 2011 y 2019, ajustamos el LLM mediante adaptación de baja dimensión de privacidad diferencial (PD-LoRA) en tres arquitecturas de modelo: BERT-mediana, BERT-pequeña y ALBERT-base, para clasificar 14 etiquetas del conjunto de datos MIMIC-CXR y 18 etiquetas del conjunto de datos CT-RATE. Evaluamos el rendimiento del modelo utilizando la puntuación F1 ponderada en varios niveles de privacidad (presupuesto de privacidad = {0,01, 0,1, 1,0, 10,0}) y comparamos el rendimiento del modelo en diferentes niveles de privacidad para cuantificar el equilibrio entre privacidad y utilidad. Los resultados experimentales revelaron un claro equilibrio entre privacidad y utilidad en dos conjuntos de datos diferentes y tres modelos diferentes. Con garantías de privacidad moderadas, el modelo ajustado con DP alcanzó puntuaciones F1 ponderadas de 0,88 para MIMIC-CXR y 0,59 para CT-RATE, lo que demuestra un rendimiento relativamente similar a los modelos de referencia LoRA sin preservación de la privacidad (0,90 y 0,78, respectivamente). En conclusión, el ajuste fino diferencial con preservación de la privacidad utilizando LoRA permite una clasificación multienfermedad eficaz y con preservación de la privacidad, lo que aborda los desafíos clave del ajuste fino de LLM en datos médicos sensibles.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de lograr simultáneamente la protección de la privacidad de los datos médicos y un mejor rendimiento del LLM mediante el uso de técnicas de privacidad diferencial (PD).
Se presenta un método eficiente de ajuste fino de LLM basado en DP utilizando LoRA.
La generalización se verificó mediante experimentos en varios conjuntos de datos médicos y arquitecturas de modelos.
Mantiene un rendimiento de clasificación relativamente alto incluso en niveles de privacidad intermedios.
Limitations:
Existe un equilibrio entre el nivel de privacidad y el rendimiento del modelo (equilibrio entre privacidad y utilidad).
Pueden ocurrir diferencias de rendimiento dependiendo de las características del conjunto de datos utilizado (degradación del rendimiento del conjunto de datos CT-RATE en comparación con MIMIC-CXR).
Se necesitan más experimentos con conjuntos de datos médicos y arquitecturas LLM más diversos.
Se necesita una validación adicional para su aplicación en entornos clínicos reales.
👍