Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Jailbreak a nivel de prellenado: un análisis de riesgo de caja negra de modelos de lenguaje grandes

Created by
  • Haebom

Autor

Yakai Li, Jiekang Hu, Weiduan Sang, Luping Ma, Dongsheng Nie, Weijuan Zhang, Aimin Yu, Yi Su, Qingjia Huang, Qihang Zhou

Describir

Este artículo presenta los resultados de un estudio sobre ataques de repetición, una amenaza para la seguridad de los modelos de lenguaje a gran escala (LLM). Este estudio se centra en los ataques que explotan la función de prellenado de respuestas controlada por el usuario, en lugar de los ataques a nivel de mensaje, abordados principalmente en estudios previos. El prellenado permite a los atacantes manipular el inicio de la salida del modelo, cambiando el paradigma de ataque de los ataques basados ​​en la persuasión a la manipulación directa del estado del modelo. Se realizó un análisis de seguridad de caja negra en 14 LLM para clasificar los ataques de repetición a nivel de prellenado y evaluar su eficacia. Los resultados experimentales muestran que los ataques con métodos adaptativos alcanzaron tasas de éxito superiores al 99 % en múltiples modelos, y el análisis de probabilidad a nivel de token confirmó que la manipulación del estado inicial provocó un cambio en la probabilidad del primer token, del rechazo a la cooperación. Además, demostramos que los ataques de repetición a nivel de prellenado mejoran eficazmente la tasa de éxito de los ataques a nivel de mensaje existentes entre un 10 y un 15 %. La evaluación de varias estrategias de defensa reveló que los filtros de contenido existentes ofrecen una protección limitada, y que los métodos de detección centrados en la relación operativa entre los mensajes y el prellenado son más eficaces. En conclusión, exponemos vulnerabilidades en la actual alineación de seguridad de LLM y enfatizamos la necesidad de abordar superficies de ataque pre-llenadas en futuras capacitaciones de seguridad.

Takeaways, Limitations

Takeaways:
Revelamos la existencia y gravedad de un nuevo tipo de ataque de re-break que aprovecha la funcionalidad de prellenado de respuesta controlada por el usuario.
Demostramos que los ataques de prellenado pueden amplificar los ataques basados ​​en indicaciones existentes.
Expone las limitaciones de los filtros de contenido existentes y sugiere la necesidad de un nuevo método de detección basado en la relación entre las indicaciones y los rellenos previos.
Sugerir direcciones de investigación para mejorar la seguridad de LLM (respondiendo a ataques de prellenado).
Limitations:
Límites en los tipos y número de modelos a analizar (14 modelos).
Se necesitan más investigaciones para determinar la generalización del método de detección propuesto y su aplicación a entornos del mundo real.
Tal vez falte un análisis exhaustivo de los diferentes tipos de ataques de prellenado.
👍