Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

M2S: jailbreak de múltiples turnos a un solo turno en Red Teaming para LLM

Created by
  • Haebom

Autor

Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim

Describir

Este artículo presenta un nuevo marco que consolida las indicaciones de "jailbreak" adversarial multiturno en consultas de un solo turno, reduciendo significativamente el esfuerzo manual necesario para las pruebas adversariales de modelos de lenguaje a gran escala (LLM). Los jailbreaks humanos multiturno han mostrado altas tasas de éxito en ataques, pero requieren una cantidad considerable de recursos humanos y tiempo. El método multiturno-un solo turno (M2S) propuesto (Hyphenize, Numberize, Pythonize) reformatea sistemáticamente las conversaciones multiturno en indicaciones estructuradas de un solo turno. A pesar de eliminar las interacciones repetitivas, estas indicaciones mantienen y, a menudo, mejoran la eficacia adversarial. En evaluaciones exhaustivas del conjunto de datos Multi-Turno Humano Jailbreak (MHJ), el método M2S alcanza tasas de éxito de ataque que oscilan entre el 70,6 % y el 95,9 % en varios LLM de vanguardia. Cabe destacar que las indicaciones de un solo turno superan al ataque multiturno original en hasta 17,5 puntos porcentuales y reducen el uso promedio de tokens a más de la mitad. Análisis más profundos revelan que la incrustación de solicitudes maliciosas en estructuras como enumeraciones o códigos aprovecha los puntos ciegos contextuales para eludir tanto las protecciones básicas como los filtros externos de entrada/salida. El marco M2S transforma conversaciones de varias rondas en indicaciones concisas de una sola ronda, lo que proporciona una herramienta escalable para pruebas adversarias a gran escala y expone una debilidad crítica en las defensas LLM modernas.

Takeaways, Limitations

Takeaways:
Presentamos un método para transformar eficientemente ataques adversarios de múltiples rondas en ataques de una sola ronda, mejorando significativamente la eficiencia de las pruebas adversarias de LLM.
Demostramos que los avisos de un solo turno logran tasas de éxito de ataque más altas que los avisos de múltiples turnos, lo que expone vulnerabilidades en los mecanismos de defensa existentes.
Presentamos una nueva técnica de ataque que explota el "punto ciego contextual" de LLM.
Proporciona un marco escalable para pruebas adversarias a gran escala.
Limitations:
Se necesitan más investigaciones para determinar la generalización del método M2S propuesto.
Es posible que solo sea eficaz contra ciertos tipos de LLM o ciertos tipos de ataques adversarios.
El método M2S podría no ser eficaz contra todos los tipos de ataques de jailbreak. Se requieren más evaluaciones para una gama más amplia de tipos de ataques.
👍