Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Combinaison de moniteurs d'exécution à coûts limités pour la sécurité de l'IA

Created by
  • Haebom

Auteur

Tim Tian Hua, James Baskerville, Henri Lemoine, Mia Hopman, Aryan Bhatt, Tyler Tracy

Contour

Cet article étudie comment combiner plusieurs moniteurs d'exécution en un seul protocole de surveillance. L'objectif est de maximiser la probabilité d'appliquer des mesures de sécurité pour les sorties désalignées (rappel). L'exécution des moniteurs et l'application des mesures de sécurité étant coûteuses, la contrainte de coût moyen doit être respectée. Nous développons un algorithme qui identifie le protocole le plus efficace en prenant en compte les performances et le coût des moniteurs existants. Cet algorithme explore en profondeur quand et quels moniteurs appeler, ainsi que la manière d'appliquer les mesures de sécurité, en s'appuyant sur le lemme de Neyman-Pearson. En nous concentrant sur le rapport de vraisemblance et en réalisant des compromis stratégiques entre les coûts des moniteurs et ceux des actions, nous obtenons un taux de rappel plus que doublé par rapport aux valeurs de référence dans un environnement de revue de code. Nous démontrons également que la combinaison de deux moniteurs peut apporter une amélioration au sens de Pareto par rapport à l'utilisation d'un seul moniteur. Cette étude propose une méthodologie raisonnée pour combiner les moniteurs existants afin de détecter les comportements indésirables dans les environnements sensibles aux coûts.

Takeaways, Limitations_

Takeaways:
Nous présentons un algorithme qui intègre efficacement plusieurs moniteurs d’exécution pour maximiser le rappel des mesures de sécurité.
Nous proposons une stratégie pour trouver l’équilibre optimal entre le coût de surveillance et le coût des mesures de sécurité en tirant parti du lemme de Neyman-Pearson.
Nous vérifions expérimentalement les améliorations de performances par rapport aux méthodes existantes dans un environnement de révision de code.
Nous montrons que l’amélioration de Pareto peut être obtenue sous des contraintes de coût.
Limitations:
Il s'agit de résultats expérimentaux limités à un environnement de revue de code spécifique. Des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à d'autres domaines.
L'algorithme peut présenter une complexité de calcul élevée. Un développement efficace de l'algorithme peut être nécessaire pour son application à des systèmes à grande échelle.
L'algorithme est conçu en partant du principe que les performances et le coût du moniteur sont connus à l'avance. En situation réelle, il peut être difficile d'obtenir ces informations avec précision.
👍