Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BadPromptFL: Una nueva amenaza de puerta trasera para el aprendizaje federado basado en indicaciones en modelos multimodales

Created by
  • Haebom

Autor

Maozhen Zhang, Mengnan Zhao, Bo Wang

Describir

Este artículo presenta BadPromptFL, un novedoso ataque de puerta trasera contra el aprendizaje federado basado en indicaciones (PromptFL) en modelos de aprendizaje contrastivo multimodal. BadPromptFL inyecta indicaciones maliciosas en el proceso de agregación global mediante la optimización conjunta de los activadores locales de la puerta trasera y la incrustación de indicaciones por parte de clientes comprometidos. Estas indicaciones maliciosas se propagan posteriormente a clientes benignos, lo que permite la activación universal de la puerta trasera durante la inferencia sin modificar los parámetros del modelo. Aprovechando el comportamiento de aprendizaje contextual de una arquitectura de tipo CLIP, BadPromptFL logra una alta tasa de éxito de ataque (p. ej., >90%) con mínima visibilidad y una participación limitada del cliente. Amplios experimentos con diversos conjuntos de datos y protocolos de agregación demuestran la efectividad, el sigilo y la generalización del ataque, lo que plantea serias dudas sobre la robustez del aprendizaje federado basado en indicaciones en implementaciones reales.

Takeaways, Limitations

Takeaways: Al revelar una vulnerabilidad de seguridad en el aprendizaje federado basado en indicaciones y presentar una técnica de ataque de puerta trasera eficaz y sigilosa llamada BadPromptFL, destacamos la necesidad de fortalecer la seguridad de los sistemas de aprendizaje federado basado en indicaciones en entornos reales. Esta técnica de ataque, que aprovecha las características de la arquitectura de estilo CLIP, sugiere su aplicabilidad a otros modelos similares.
Limitations: Este artículo no aborda las técnicas de defensa contra el ataque BadPromptFL propuesto actualmente. Se requiere mayor investigación sobre diversas técnicas de defensa. Dado que estos resultados son experimentales para un conjunto de datos y una arquitectura de modelo específicos, se requiere mayor investigación para determinar su generalización a otros entornos.
👍