Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ataques activos: Formación de equipos rojos de LLM mediante entornos adaptativos

Created by
  • Haebom

Autor

Taeyoung Yun, Pierre-Luc St-Charles, Parque Jinkyoo, Yoshua Bengio, Minsu Kim

Describir

Abordamos el problema de generar diversas indicaciones de ataque que inducen comportamientos dañinos para el ajuste preciso de la seguridad de los modelos de lenguaje a gran escala (LLM). En lugar de diseñar las indicaciones manualmente, entrenamos un LLM atacante mediante aprendizaje por refuerzo (RL) como recompensa, utilizando un clasificador de toxicidad, para generar automáticamente estas indicaciones. Inspirado en el paradigma de aprendizaje activo, que fomenta la exploración adaptativa, este artículo presenta "Active Attacks", un novedoso algoritmo de equipo rojo basado en RL que adapta los ataques a medida que la víctima evoluciona. Active Attacks es un módulo simple, listo para usar, que se integra a la perfección con los objetivos de RL existentes. Supera a los métodos existentes basados ​​en RL (incluyendo GFlowNets, PPO y REINFORCE), mejorando la tasa de éxito de ataques cruzados del 0,07 % al 31,28 % (con un aumento del 6 % en el esfuerzo computacional) en comparación con los GFlowNets de última generación anteriores.

Takeaways, Limitations

Takeaways:
Generación automática de diversos avisos de ataque que pueden utilizarse para ajustar la seguridad de LLM.
Muestra un rendimiento superior en comparación con los métodos existentes basados ​​en RL (mejora de más de 400 veces respecto a GFlowNets).
Los ataques activos son módulos simples plug-and-play que se pueden integrar fácilmente en los objetivos RL existentes.
Ajustar la seguridad de la víctima para alentar a los atacantes a buscar continuamente nuevas vulnerabilidades.
Un plan de estudios de exploración progresiva que progresa desde modos fáciles a difíciles.
Descubra varios modos de ataque locales paso a paso y combínelos para cubrir una amplia gama de distribuciones multimodo.
Limitations:
No hay ninguna mención específica de Limitations en el documento.
👍