Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

BadPromptFL : une nouvelle menace de porte dérobée pour l'apprentissage fédéré basé sur les invites dans les modèles multimodaux

Created by
  • Haebom

Auteur

Maozhen Zhang, Mengnan Zhao, Wei Wang, Bo Wang

Contour

Cet article présente BadPromptFL, la première attaque par porte dérobée visant l'apprentissage fédéré par invites (PromptFL) dans les modèles d'apprentissage contrastif multimodal. BadPromptFL implique qu'un client compromis optimise conjointement les déclencheurs de porte dérobée locaux et les intégrations d'invites afin d'injecter des invites malveillantes dans le processus d'agrégation global. Ces invites malveillantes sont ensuite propagées vers des clients bénins, permettant l'activation universelle de la porte dérobée lors de l'inférence sans modifier les paramètres du modèle. Exploitant le comportement d'apprentissage contextuel de l'architecture de type CLIP, BadPromptFL atteint un taux de réussite élevé (par exemple, > 90 %) avec une visibilité minimale et une implication client limitée. Des expériences approfondies sur divers ensembles de données et protocoles d'agrégation démontrent l'efficacité, la furtivité et la généralisabilité de cette attaque, soulevant de sérieuses inquiétudes quant à la robustesse de l'apprentissage fédéré par invites dans les déploiements réels.

Takeaways, Limitations

Takeaways : Nous révélons une vulnérabilité de sécurité dans l'apprentissage fédéré basé sur les invites et proposons une nouvelle technique d'attaque par porte dérobée, BadPromptFL, suggérant des pistes de recherche pour garantir la sécurité des systèmes réels. Nous démontrons également l'efficacité d'une attaque exploitant les caractéristiques d'apprentissage contextuel de l'architecture de type CLIP.
Limitations: Les recherches sur les techniques de défense contre les attaques actuellement proposées sont insuffisantes. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l'attaque à divers types de modèles multimodaux et de contextes d'apprentissage fédéré. Les résultats expérimentaux limités à des ensembles de données et des contextes spécifiques peuvent limiter la généralisabilité de l'efficacité de l'attaque à d'autres environnements.
👍