Dans cet article, nous proposons AutoSteer, une technique d'arbitrage en temps d'inférence pour améliorer la sécurité des modèles de langage multimodaux à grande échelle (MLLM). AutoSteer se compose de trois éléments principaux : le score de sensibilisation à la sécurité (SAS), des sondes de sécurité adaptatives et des têtes de rejet légères, sans aucun réglage fin des modèles sous-jacents. SAS identifie automatiquement les différences pertinentes pour la sécurité entre les couches d'un modèle, les sondes de sécurité adaptatives estiment la probabilité de sorties dangereuses à partir des représentations intermédiaires et les têtes de rejet ajustent sélectivement la génération lorsque des risques de sécurité sont détectés. Les résultats expérimentaux obtenus avec LLaVA-OV et Chameleon montrent qu'AutoSteer réduit significativement le taux de réussite des attaques (ASR) contre les menaces textuelles, visuelles et multimodales, tout en préservant les fonctionnalités générales.