Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

BadPromptFL : une nouvelle menace de porte dérobée pour l'apprentissage fédéré basé sur les invites dans les modèles multimodaux

Created by
  • Haebom

Auteur

Maozhen Zhang, Mengnan Zhao, Bo Wang

Contour

Cet article présente BadPromptFL, une nouvelle attaque par porte dérobée ciblant l'apprentissage fédéré par invites (PromptFL) dans les modèles d'apprentissage contrastif multimodal. BadPromptFL injecte des invites malveillantes dans le processus d'agrégation global en faisant en sorte que les clients compromis optimisent conjointement les déclencheurs de porte dérobée locaux et les intégrations d'invites. Ces invites malveillantes sont ensuite propagées vers des clients bénins, permettant l'activation universelle de la porte dérobée lors de l'inférence sans modifier les paramètres du modèle. Exploitant le comportement d'apprentissage contextuel d'une architecture de type CLIP, BadPromptFL atteint un taux de réussite élevé (par exemple, > 90 %) avec une visibilité minimale et une implication client limitée. Des expériences approfondies sur divers ensembles de données et protocoles d'agrégation démontrent l'efficacité, la furtivité et la généralisabilité de l'attaque, soulevant de sérieuses inquiétudes quant à la robustesse de l'apprentissage fédéré par invites dans les déploiements réels.

Takeaways, Limitations

Takeaways: Nous avons d'abord découvert une vulnérabilité de sécurité dans l'apprentissage fédéré basé sur des invites et présenté une technique d'attaque par porte dérobée efficace et furtive appelée BadPromptFL, soulignant la nécessité de renforcer la sécurité des systèmes d'apprentissage fédéré basé sur des invites en environnement réel. Cette technique d'attaque, qui exploite les caractéristiques de l'architecture de type CLIP, suggère son applicabilité à d'autres modèles similaires.
Limitations : Les techniques de défense contre l'attaque BadPromptFL actuellement proposée ne sont pas abordées dans cet article. Des recherches supplémentaires sont nécessaires sur diverses techniques de défense. Ces résultats étant expérimentaux pour un ensemble de données et une architecture de modèle spécifiques, des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à d'autres environnements.
👍