Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendiendo a diagnosticar de forma privada: LLM con tecnología de DP para la clasificación de informes de radiología

Created by
  • Haebom

Autor

Payel Bhattacharjee, Fengwei Tian, Geoffrey D. Rubin, Joseph Y. Lo, Nirav Merchant, Heidi Hanson, John Gounley, Ravi Tandon

Describir

Este estudio propone un marco para el ajuste fino de un modelo de lenguaje a gran escala (LLM) mediante privacidad diferencial (PD) para la detección de múltiples anomalías en el texto de informes radiológicos. Mediante la inyección de ruido compensado durante el ajuste fino, buscamos mitigar los riesgos de privacidad asociados con datos sensibles de pacientes y prevenir la fuga de datos, manteniendo al mismo tiempo el rendimiento de la clasificación. Utilizando los conjuntos de datos MIMIC-CXR y CT-RATE (50.232 informes recopilados entre 2011 y 2019), ajustamos tres arquitecturas de modelo: BERT-mediano, BERT-pequeño y ALBERT-base mediante adaptación de bajo rango de privacidad diferencial (PD-LoRA). Evaluamos el rendimiento del modelo bajo diferentes presupuestos de privacidad (0,01, 0,1, 1,0 y 10,0) utilizando puntuaciones F1 ponderadas para analizar cuantitativamente el equilibrio entre privacidad y utilidad.

Takeaways, Limitations

Takeaways:
El ajuste fino de la privacidad diferencial mediante LoRA aborda desafíos clave en el ajuste fino de LLM en datos médicos confidenciales, lo que permite una clasificación de múltiples anomalías eficaz y que preserva la privacidad a partir de informes de radiología.
Con garantías de privacidad razonables, el modelo ajustado por DP logró puntajes F1 ponderados similares en los conjuntos de datos MIMIC-CXR (0,88 frente a 0,90) y CT-RATE (0,59 frente a 0,78) en comparación con el modelo de referencia LoRA que no preserva la privacidad.
Verificamos experimentalmente el equilibrio entre privacidad y utilidad en varias arquitecturas de modelos y niveles de privacidad.
Limitations:
El estudio se limitó a conjuntos de datos específicos (MIMIC-CXR, CT-RATE) y arquitecturas de modelos (BERT-mediano, BERT-pequeño, ALBERT-base), lo que requirió más investigación sobre generalización.
El equilibrio entre privacidad y utilidad puede variar según el conjunto de datos y los modelos, y se necesita más investigación para determinar el nivel óptimo de privacidad.
Es necesario verificar la aplicabilidad a conjuntos de datos médicos y escenarios clínicos más diversos.
👍