Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los ataques inmediatos revelan la eliminación superficial del conocimiento en los métodos de desaprendizaje

Created by
  • Haebom

Autor

Yeonwoo Jang, Shariqah Hossain, Ashwin Sreevatsa, Diogo Cruz

Describir

Este artículo demuestra que ciertos métodos de desaprendizaje del aprendizaje automático son vulnerables a ataques de indicaciones simples. Evaluamos sistemáticamente ocho técnicas de desaprendizaje en tres familias de modelos, evaluando su capacidad para recuperar conocimiento presumiblemente desaprendido mediante análisis basados en resultados, logit y de sondeo. Si bien métodos como RMU y TAR muestran un desaprendizaje robusto, ELM es vulnerable a ciertos ataques de indicaciones (p. ej., agregar texto de relleno en hindi a la indicación original recupera una precisión del 57,3%). El análisis logit revela que los modelos desaprendidos tienen menos probabilidades de ocultar conocimiento mediante cambios en el formato de las respuestas, dada la fuerte correlación entre el resultado y la precisión logit. Estos resultados desafían los supuestos convencionales sobre la efectividad del desaprendizaje y resaltan la necesidad de un marco de evaluación confiable que pueda distinguir la eliminación genuina de conocimiento de la supresión superficial de la salida. Para facilitar futuras investigaciones, presentamos un marco de evaluación que facilita la evaluación de técnicas de indicaciones para recuperar conocimiento desaprendido.

Takeaways, Limitations

Takeaways: Al revelar que algunas técnicas de desaprendizaje son vulnerables a ataques inmediatos, planteamos la necesidad de reexaminar la eficacia del desaprendizaje. Demostramos claramente la diferencia entre técnicas robustas de desaprendizaje, como RMU y TAR, y técnicas vulnerables, como ELM. El marco de evaluación publicado puede contribuir a futuras investigaciones.
Limitations: Los tipos de modelos y técnicas de desaprendizaje utilizados en la evaluación podrían ser limitados. Podría faltar un análisis exhaustivo de los diversos tipos de ataques rápidos. Se requiere más investigación para determinar su generalización a aplicaciones del mundo real.
👍