Abordamos el problema de generar diversas indicaciones de ataque que inducen comportamientos dañinos para el ajuste preciso de la seguridad de los modelos de lenguaje a gran escala (LLM). En lugar de diseñar las indicaciones manualmente, entrenamos un LLM atacante mediante aprendizaje por refuerzo (RL) como recompensa, utilizando un clasificador de toxicidad, para generar automáticamente estas indicaciones. Inspirado en el paradigma de aprendizaje activo, que fomenta la exploración adaptativa, este artículo presenta "Active Attacks", un novedoso algoritmo de equipo rojo basado en RL que adapta los ataques a medida que la víctima evoluciona. Active Attacks es un módulo simple, listo para usar, que se integra a la perfección con los objetivos de RL existentes. Supera a los métodos existentes basados en RL (incluyendo GFlowNets, PPO y REINFORCE), mejorando la tasa de éxito de ataques cruzados del 0,07 % al 31,28 % (con un aumento del 6 % en el esfuerzo computacional) en comparación con los GFlowNets de última generación anteriores.