Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CAVGAN: Unificación del jailbreak y la defensa de los LLM mediante ataques generativos adversariales en sus representaciones internas

Created by
  • Haebom

Autor

Xiaohu Li, Yunfeng Ning, Zepeng Bao, Mayi Xu, Jianhao Chen, Tieyun Qian

Describir

Este artículo propone un nuevo marco que integra ataques y defensas para abordar vulnerabilidades en el mecanismo de alineación de seguridad de los modelos de lenguaje a gran escala (LLM). Basándonos en la separabilidad lineal de las incrustaciones de la capa intermedia de los LLM y la naturaleza inherente de los ataques de jailbreak, que propagan consultas maliciosas a regiones seguras, utilizamos una red generativa antagónica (GAN) para aprender los límites de decisión de seguridad dentro de los LLM. Los resultados experimentales demuestran una tasa promedio de éxito de jailbreak del 88,85 % en tres LLM principales y una tasa promedio de éxito de defensa del 84,17 % en un conjunto de datos de jailbreak de vanguardia, lo que valida la eficacia del método propuesto y proporciona nuevos conocimientos sobre los mecanismos de seguridad internos de los LLM. El código y los datos están disponibles en https://github.com/NLPGM/CAVGAN .

Takeaways, Limitations

Takeaways:
Proporciona una nueva comprensión de los mecanismos de seguridad interna de LLM.
Presentamos un marco de defensa y ataque de jailbreak eficiente utilizando GAN.
La eficacia del método queda demostrada al conseguir unas elevadas tasas de éxito en el jailbreak (88,85%) y en la defensa (84,17%).
Presentamos una nueva dirección para fortalecer la seguridad del LLM.
Limitations:
Dado que estos resultados son experimentales en conjuntos de datos específicos de LLM y Jailbreak, se necesita más investigación para determinar su generalización.
Los métodos basados en GAN pueden ser computacionalmente costosos.
Es necesaria una mayor validación de su adaptabilidad a nuevas técnicas de ataque de jailbreak.
👍