Este artículo analiza los últimos desarrollos en IA que utilizan múltiples capas de protección para proteger contra el uso indebido catastrófico de sistemas de IA de vanguardia. Observamos que la seguridad de las secuencias de protección de varios desarrolladores, incluido el modelo Claude 4 Opus de Anthropic, es incierta y que existe una falta de investigación previa sobre su evaluación y ataque. Este artículo busca abordar esta deficiencia mediante el desarrollo de una secuencia de protección de código abierto y su implementación en red-team. Desarrollamos un novedoso clasificador de entrada y salida basado en indicaciones de pocos intentos que supera al modelo de protección de vanguardia existente, ShieldGemma, y presentamos una novedosa técnica de ataque denominada Ataque por Etapas (STACK), que logra una tasa de éxito significativa incluso en un entorno de caja negra. Finalmente, presentamos mitigaciones que los desarrolladores pueden utilizar para prevenir ataques por etapas.