[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VLA-Mark: una marca de agua intermodal para un modelo de alineación de visión y lenguaje de gran tamaño

Created by
  • Haebom

Autor

Shuliang Liu, Qi Zheng, Jesse Jiaxi Xu, Yibo Yan, He Geng, Aiwei Liu, Peijie Jiang, Jia Liu, Yik-Cheung Tam, Xuming Hu

Describir

En este artículo, proponemos VLA-Mark, una novedosa técnica de marca de agua para proteger los derechos de propiedad intelectual de los modelos de lenguaje visual. Las técnicas existentes de marca de agua de texto pueden comprometer la consistencia del lenguaje visual y hacer vulnerables conceptos semánticamente importantes debido al sesgo de selección de tokens y a las estrategias estáticas. VLA-Mark integra métricas de consistencia del lenguaje visual multiescala (similitud de parches locales, consistencia semántica global y patrones de atención contextual) para integrar marcas de agua eficazmente sin reentrenar el modelo, manteniendo al mismo tiempo la fidelidad semántica. El mecanismo, sensible a la entropía, ajusta dinámicamente el equilibrio entre la solidez de la marca de agua y la preservación semántica, y prioriza la evidencia visual en la etapa de generación, donde la incertidumbre es baja. Los resultados experimentales muestran que logra un 7,4 % menos de PPL y un 26,6 % más de BLEU que los métodos existentes, y alcanza una tasa de detección casi perfecta (98,8 % AUC). Además, presenta un nuevo estándar para marcas de agua multimodales de alta calidad al mantener la consistencia entre el texto y lo visual y al mismo tiempo mantener una alta resistencia a ataques del 96,1 % contra ataques como parafrasear y sustituir sinónimos.

Takeaways, Limitations

Takeaways:
Se presenta un método novedoso para incorporar de forma efectiva marcas de agua en modelos de lenguaje visual sin necesidad de volver a entrenar el modelo.
Logra un rendimiento mejorado (PPL, BLEU) y una alta tasa de detección, resistencia a ataques en comparación con los métodos existentes
Desarrollo de una tecnología para insertar marcas de agua manteniendo la coherencia visual-lingüística
Estableciendo un nuevo estándar para marcas de agua multimodales de alta calidad
Limitations:
La resistencia a ataques distintos a los presentados en este trabajo requiere más estudios.
Es necesario evaluar el rendimiento de la generalización en varios modelos de lenguaje visual y conjuntos de datos.
Se necesitan más investigaciones para determinar los parámetros óptimos del mecanismo sensible a la entropía.
👍