[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

JailDAM: Detección de fugas de la cárcel con memoria adaptativa para el modelo visión-lenguaje

Created by
  • Haebom

Autor

Yi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Describir

En este artículo, proponemos JAILDAM, un nuevo marco para la detección de ataques de jailbreak para la implementación segura de modelos lingüísticos multimodales a gran escala (MLLM). Para abordar las deficiencias de los métodos existentes, que son (1) aplicables únicamente a modelos de caja blanca, (2) un alto coste computacional y (3) datos etiquetados insuficientes, JAILDAM utiliza un enfoque basado en memoria con representación de conocimiento inseguro basada en políticas. Al actualizar dinámicamente el conocimiento inseguro durante la prueba, mantiene la eficiencia y mejora el rendimiento de generalización, incluso frente a estrategias de jailbreak desconocidas. Los resultados experimentales en varias pruebas de rendimiento de jailbreak de VLM demuestran que JAILDAM alcanza un rendimiento de vanguardia tanto en precisión como en velocidad.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco, JAILDAM, que mejora significativamente el rendimiento de detección de ataques de jailbreak de MLLM.
Proponemos un método de detección eficiente que sea aplicable a entornos reales, no limitado al modelo de caja blanca.
Ayuda a resolver problemas de escasez de datos al reducir la dependencia de datos etiquetados.
Actualización dinámica del conocimiento en el momento de la prueba para mejorar el rendimiento de generalización a nuevas estrategias de jailbreak.
Limitations:
Se necesitan más investigaciones para determinar qué tan sostenible es el rendimiento de generalización del método propuesto.
Es necesaria una evaluación de la robustez de diferentes arquitecturas MLLM y estrategias de jailbreak.
Se requiere evaluación del desempeño y verificación de la estabilidad en entornos de servicio reales.
👍