Este artículo investiga el uso de sistemas LLM multiagente como defensa contra ataques de jailbreak que eluden los mecanismos de seguridad de los grandes modelos de lenguaje (LLM). Evaluamos tres estrategias de jailbreak, incluyendo ataques de AutoDefense y BetterDan y JB de Deepleaps, y las comparamos con configuraciones de un solo agente, dos y tres agentes. Se ha demostrado que los sistemas multiagente mejoran la resistencia a los ataques de jailbreak, especialmente al reducir los falsos negativos, pero su efectividad varía según el tipo de ataque y conlleva desventajas, como un mayor número de falsos positivos y una mayor sobrecarga computacional. Concluimos señalando las limitaciones de las defensas automatizadas actuales y sugiriendo estrategias para mejorar la robustez de la alineación de los futuros sistemas LLM.