Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

X-Teaming Evolutionary M2S: Descubrimiento automatizado de plantillas de jailbreak de múltiples turnos a turnos únicos

Created by
  • Haebom

Autor

Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Parque Haon

Describir

Este artículo presenta una investigación sobre una técnica de multi-turno a turno único (M2S) que condensa las actividades repetitivas del equipo rojo en una única consigna estructurada. A diferencia de estudios previos que se basan en unas pocas plantillas manuscritas, este artículo propone el marco X-Teaming Evolutionary M2S, que descubre y optimiza automáticamente las plantillas M2S mediante un algoritmo evolutivo basado en un modelo de lenguaje (LLM). Utiliza un muestreo inteligente de 12 fuentes y un LLM inspirado en StrongREJECT como juez, lo que resulta en un registro totalmente auditable. Tras cinco generaciones evolutivas, con un umbral de éxito de 0,70, logramos una tasa de éxito general del 44,8 % (103 de 230) en dos nuevas familias de plantillas y GPT-4.1. A través de 2500 evaluaciones entre modelos, demostramos que las mejoras estructurales son transferibles, pero varían entre los modelos objetivo. Encontramos una correlación positiva entre la longitud de la consigna y las puntuaciones, lo que destaca la importancia de un juicio sensible a la longitud. El código fuente, la configuración y los resultados están disponibles en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco para generar y optimizar automáticamente plantillas M2S utilizando un algoritmo evolutivo basado en modelos de lenguaje.
Destaca la importancia del establecimiento de umbrales y la evaluación entre modelos para la generación exitosa de plantillas M2S.
Sugerir futuras direcciones de investigación al revelar la correlación entre la duración de la instrucción y el rendimiento.
Si bien muestra la posibilidad de mejora estructural, sugiere que deben tenerse en cuenta las diferencias de rendimiento entre los modelos.
Limitations:
La tasa de éxito del 44,8% todavía deja margen de mejora.
El rendimiento es deficiente para ciertos modelos (ambos modelos obtienen una puntuación de 0 en el mismo umbral).
Existe una dependencia del LLM utilizado (GPT-4.1) y se necesita más investigación sobre la generalización a otros LLM.
Se necesita un análisis más profundo y una comprensión más profunda de la correlación entre la duración de la instrucción y el rendimiento.
👍