Este artículo presenta el primer estudio sobre el rendimiento de modelos de lenguaje a gran escala (LLM) en un entorno multiagente para ciberdefensa autónoma (ACD). Los enfoques actuales de ACD se han centrado en el entrenamiento basado en aprendizaje por refuerzo (RL) de un solo agente, que presenta las limitaciones de un entrenamiento costoso y un razonamiento inexplicable. En este estudio, integramos LLM en el entorno CybORG CAGE 4 y evaluamos la interacción de equipos de ACD compuestos por agentes LLM y agentes RL mediante un novedoso protocolo de comunicación. Analizamos las fortalezas y debilidades de los LLM y el RL, y sugerimos líneas de investigación prometedoras para la generación, el entrenamiento y el despliegue de equipos de agentes de ACD en el futuro.