Este artículo presenta un estudio sobre ataques de jailbreak que explotan vulnerabilidades en modelos de lenguaje a gran escala (LLM) para inducir la generación de contenido malicioso. En particular, nos centramos en un método de ataque común que confunde los LLM mediante indicaciones ambiguas y analizamos la distribución del peso de la atención para revelar la relación interna entre las indicaciones de entrada y las salidas de los LLM. Mediante métodos de análisis estadístico, definimos nuevas métricas como la intensidad de la atención (Attn_SensWords), la puntuación dependiente del contexto (Attn_DepScore) y la entropía de la distribución de la atención (Attn_Entropy), y las utilizamos para proponer una estrategia de ataque basado en la atención (ABA) inspirada en la estrategia de "ataque de engaño". El ABA funciona modificando la distribución de la atención de los LLM mediante indicaciones superpuestas para centrar la atención en las partes benignas. Además, presentamos una estrategia de defensa basada en la atención (ABD) basada en ABA para mejorar la robustez de los LLM mediante el ajuste de la distribución de la atención. A través de resultados experimentales, verificamos la efectividad de ABA y ABD, y mostramos que la distribución del peso de la atención tiene un impacto significativo en el resultado de LLM.