Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

X-Teaming Evolutionary M2S: Descubrimiento automatizado de plantillas de jailbreak de múltiples turnos a turnos únicos

Created by
  • Haebom

Autor

Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Parque Haon

Describir

X - Teaming Evolutionary M2S es un marco que descubre y optimiza automáticamente plantillas de multi-turno a mono-turno (M2S) mediante la evolución basada en modelos de lenguaje. Realiza un muestreo inteligente de 12 fuentes y mantiene un registro de auditoría completo aprovechando LLM como juez, inspirado en StrongREJECT. Con un umbral de éxito de $\theta = 0.70$, obtuvimos dos nuevas familias de plantillas a través de cinco generaciones de evolución, alcanzando una tasa de éxito general del 44.8% (103/230) en GPT-4.1. Además, observamos que las mejoras estructurales variaban entre los modelos y que existía una correlación positiva entre la duración de las indicaciones y las puntuaciones.

Takeaways, Limitations

Presentamos un método reproducible para crear indicaciones potentes de un solo turno utilizando búsqueda estructurada.
Se enfatizó la importancia del ajuste del umbral y la evaluación entre modelos.
Encontramos una correlación positiva entre la duración de las indicaciones y las puntuaciones, lo que aumenta la necesidad de un juicio basado en la duración.
Aunque el Limitations específico no se menciona explícitamente en el documento, es importante considerar las variaciones de rendimiento entre los modelos de destino y las diferencias de rendimiento entre los modelos.
Sólo se presentan resultados experimentales en un modelo limitado (GPT-4.1) y se necesita más investigación para determinar la generalización a otros modelos.
Aunque mejoramos estudios anteriores basados ​​en plantillas escritas manualmente, nos falta una discusión de los problemas potenciales que pueden surgir durante el proceso de automatización del marco.
👍