Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los ataques de tokens blandos no pueden auditar de forma fiable el desaprendizaje en modelos de lenguaje grandes

Created by
  • Haebom

Autor

Haokun Chen, Sebastian Szyller, Weilin Xu, Nageen Himayat

Describir

Este artículo presenta una evaluación de la efectividad de los ataques de tokens blandos (STA) utilizados en el desaprendizaje automático de modelos lingüísticos a gran escala (LLM). Si bien investigaciones previas han demostrado que los STA pueden extraer con éxito información no aprendida, este estudio demuestra que, en un entorno de auditoría robusto, los STA pueden extraer cualquier información de los LLM, independientemente de si esta se incluyó en el algoritmo de desaprendizaje o en los datos de entrenamiento originales. Utilizando benchmarks como "¿Quién es Harry Potter?" y TOFU, demostramos esto, revelando que incluso un pequeño número de tokens blandos (1-10) puede filtrar una cadena arbitraria de más de 400 caracteres. Por lo tanto, enfatizamos la necesidad de un enfoque cauteloso para implementar eficazmente los STA en auditorías de desaprendizaje.

Takeaways, Limitations

Takeaways: Al presentar claramente las limitaciones y los riesgos de STA al auditar cursos de desaprendizaje de maestría en derecho (LLM), este artículo enfatiza la necesidad de desarrollar técnicas de desaprendizaje más seguras y efectivas. Al demostrar las vulnerabilidades de STA, sugiere líneas de investigación para la seguridad de datos y la protección de la privacidad en los cursos de LLM.
Limitations: Este estudio presenta resultados limitados a un entorno de referencia y auditoría específico. Se requiere más investigación sobre diversas arquitecturas LLM, algoritmos de desaprendizaje y conjuntos de datos reales. Se carece de análisis de técnicas de ataque distintas a STA.
👍