[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Automatisation du pilotage pour des modèles linguistiques multimodaux sûrs et de grande taille

Created by
  • Haebom

Auteur

Lyucheng Wu, Mengru Wang, Ziwen Xu, Tri Cao, Nay Oo, Bryan Hooi, Shumin Deng

Contour

Dans cet article, nous proposons AutoSteer, une technique d'arbitrage en temps d'inférence pour améliorer la sécurité des modèles de langage multimodaux à grande échelle (MLLM). AutoSteer se compose de trois éléments principaux : le score de sensibilisation à la sécurité (SAS), des sondes de sécurité adaptatives et des têtes de rejet légères, sans aucun réglage fin des modèles sous-jacents. SAS identifie automatiquement les différences pertinentes pour la sécurité entre les couches d'un modèle, les sondes de sécurité adaptatives estiment la probabilité de sorties dangereuses à partir des représentations intermédiaires et les têtes de rejet ajustent sélectivement la génération lorsque des risques de sécurité sont détectés. Les résultats expérimentaux obtenus avec LLaVA-OV et Chameleon montrent qu'AutoSteer réduit significativement le taux de réussite des attaques (ASR) contre les menaces textuelles, visuelles et multimodales, tout en préservant les fonctionnalités générales.

Takeaways, Limitations

Takeaways:
Nous fournissons un cadre efficace et interprétable pour améliorer la sécurité au stade d'inférence du MLLM.
La sécurité peut être améliorée sans modifier le modèle de base.
Améliore efficacement la sécurité contre divers types de menaces multimodes.
Nous présentons une approche pratique pour le déploiement sécurisé de systèmes d’IA multimodaux du monde réel.
Limitations:
Des recherches complémentaires sont nécessaires pour étudier les performances de généralisation de la méthode proposée. Des expériences approfondies sur divers MLLM et menaces de sécurité pourraient être nécessaires.
Des recherches supplémentaires peuvent être nécessaires pour déterminer les paramètres optimaux pour le SAS, les sondes de sécurité adaptatives et les têtes de rejet.
La robustesse d’AutoSteer face aux nouveaux types de menaces de sécurité doit être évaluée.
👍