Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SIA: Mejora de la seguridad mediante la conciencia de la intención para los modelos de visión y lenguaje

Created by
  • Haebom

Autor

Youngjin Na, Sangheon Jeong, Youngwan Lee, Jian Lee, Dawoon Jeong, Youngman Kim

Describir

A medida que aumenta la implementación de los Modelos de Visión y Lenguaje (VLM) en aplicaciones del mundo real, los riesgos de seguridad previamente ignorados se hacen cada vez más evidentes. Específicamente, las entradas multimodales aparentemente inocuas pueden combinarse para revelar intenciones dañinas, lo que resulta en salidas de modelo inseguras. Seguridad mediante Conciencia de Intención (SIA), un marco de seguridad sin entrenamiento y consciente de la intención propuesto para abordar estos riesgos potenciales, detecta proactivamente intenciones dañinas en entradas multimodales y las utiliza para generar respuestas seguras. SIA sigue tres pasos: abstracción visual (subtítulos), inferencia de intención mediante indicaciones de Cadena de Terror (CoT) de pocas tomas y generación de respuestas basadas en la intención. Al adaptarse dinámicamente a la intención implícita inferida de pares imagen-texto, SIA mitiga las salidas dañinas sin un reentrenamiento extenso. Amplios experimentos con puntos de referencia de seguridad como SIUO, MM-SafetyBench y HoliSafe han demostrado que SIA mejora consistentemente la seguridad y supera los métodos existentes sin entrenamiento.

Takeaways, Limitations

Propuesta de marco de seguridad sin formación: mejorar la seguridad sin necesidad de una amplia capacitación.
Un enfoque consciente de la intención: detección eficaz de riesgos potenciales en entradas multimodales.
Resultados experimentales: supera los métodos existentes en varios puntos de referencia de seguridad.
Limitations: No se menciona explícitamente (dentro del resumen).
👍