Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Replanteando el desaprendizaje exacto bajo exposición: Extracción de datos olvidados bajo desaprendizaje exacto en un modelo de lenguaje amplio

Created by
  • Haebom

Autor

Xiaoyu Wu, Yifei Pang, Terrance Liu, Zhiwei Steven Wu

Describir

Este artículo destaca las limitaciones de las técnicas de desaprendizaje para abordar la posible fuga de información confidencial de los datos de entrenamiento de modelos lingüísticos a gran escala (LLM). Específicamente, en un entorno de implementación real donde se exponen las API logit previas y posteriores al desaprendizaje, proponemos un novedoso ataque de extracción de datos que aprovecha las señales del modelo pre-desaprendido para extraer patrones de los datos eliminados del modelo post-desaprendido. Este ataque mejora significativamente la tasa de éxito de la extracción de datos al combinar la guía del modelo y las estrategias de filtrado de tokens, y destacamos los riesgos reales a través de un conjunto de datos de diagnóstico médico. Este estudio sugiere que el desaprendizaje puede, de hecho, aumentar el riesgo de fuga de información personal y sugiere evaluar las técnicas de desaprendizaje frente a un modelo de amenaza más amplio, incluyendo enfoques adversarios para el modelo pre-desaprendido.

Takeaways, Limitations

Takeaways:
Si bien los métodos precisos de desaprendizaje se consideran el "estándar de oro" para la privacidad, pueden tener vulnerabilidades en implementaciones del mundo real.
Son posibles los ataques de extracción de datos que utilizan información de modelos previos al desaprendizaje, y esto permite restaurar una parte significativa de los datos eliminados incluso después del desaprendizaje.
La eficacia del ataque también se verifica en conjuntos de datos del mundo real, como conjuntos de datos de diagnóstico médico, lo que sugiere los riesgos potenciales de desaprendizaje.
Al evaluar la seguridad de las tecnologías de desaprendizaje, se deben considerar modelos de amenaza adicionales, como enfoques adversarios a modelos anteriores.
Limitations:
Este estudio se centra en un entorno específico donde se exponen API logit previas y posteriores al desaprendizaje.
A pesar de la tasa de éxito mejorada de los ataques de exfiltración de datos, no se garantiza la recuperación completa de los datos eliminados.
Se necesitan más investigaciones para determinar la generalización del ataque y su aplicabilidad a diversas técnicas de desaprendizaje.
Este estudio se centra en un conjunto de datos y una técnica de ataque específicos, lo que limita su capacidad para extraer conclusiones generalizadas sobre otros conjuntos de datos y métodos de ataque.
👍