A medida que aumenta la implementación de los Modelos de Visión y Lenguaje (VLM) en aplicaciones del mundo real, los riesgos de seguridad previamente ignorados se hacen cada vez más evidentes. Específicamente, las entradas multimodales aparentemente inocuas pueden combinarse para revelar intenciones dañinas, lo que resulta en salidas de modelo inseguras. Seguridad mediante Conciencia de Intención (SIA), un marco de seguridad sin entrenamiento y consciente de la intención propuesto para abordar estos riesgos potenciales, detecta proactivamente intenciones dañinas en entradas multimodales y las utiliza para generar respuestas seguras. SIA sigue tres pasos: abstracción visual (subtítulos), inferencia de intención mediante indicaciones de Cadena de Terror (CoT) de pocas tomas y generación de respuestas basadas en la intención. Al adaptarse dinámicamente a la intención implícita inferida de pares imagen-texto, SIA mitiga las salidas dañinas sin un reentrenamiento extenso. Amplios experimentos con puntos de referencia de seguridad como SIUO, MM-SafetyBench y HoliSafe han demostrado que SIA mejora consistentemente la seguridad y supera los métodos existentes sin entrenamiento.