Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Surveillance adaptative et évaluation en conditions réelles des systèmes d'IA agentique

Created by
  • Haebom

Auteur

Manish Shukla

Contour

Cet article étudie l'évaluation et la surveillance de l'intelligence artificielle (IA) basée sur des agents, un système multi-agents combinant des modèles de langage à grande échelle, des outils externes et une planification autonome. En nous appuyant sur le cadre à cinq axes et les indicateurs préliminaires (par exemple, biais de cible et réduction des dommages) présentés dans des études précédentes, nous présentons une implémentation algorithmique et des preuves empiriques. Plus précisément, nous proposons un algorithme de surveillance multidimensionnelle adaptative (AMDM) qui normalise les indicateurs hétérogènes, applique des seuils de moyenne mobile pondérés de manière exponentielle sur tous les axes et effectue une détection conjointe des anomalies à l'aide de la distance de Mahalanobis. Nous vérifions l'efficacité de l'algorithme par des simulations et des expériences sur le terrain. L'AMDM démontre une latence de détection des anomalies réduite et des taux de faux positifs réduits. De plus, nous améliorons la reproductibilité de l'étude en divulguant le code, les données et une liste de contrôle de reproductibilité associés.

Takeaways, Limitations_

Takeaways:
Nous présentons un algorithme de surveillance multidimensionnelle adaptative (AMDM) pour une surveillance efficace de l'IA de type agent et démontrons empiriquement son efficacité.
Souligne l’importance des évaluations qui prennent en compte les facteurs centrés sur l’humain ou économiques qui ont été négligés dans les études précédentes.
Contribue à améliorer la sécurité et la fiabilité de l'IA de type agent en réduisant la latence de détection des anomalies et les taux de faux positifs.
Assurer la reproductibilité de la recherche et faciliter les recherches de suivi grâce au code ouvert et à la divulgation des données.
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralisabilité de l’algorithme AMDM.
La généralisabilité des résultats doit être revue en raison des limites de l’environnement expérimental.
Une vérification de l’applicabilité est nécessaire pour divers systèmes d’IA de type agent.
L’analyse de 84 articles a révélé que l’accent était mis de manière écrasante sur les indicateurs techniques plutôt que sur les considérations centrées sur l’humain ou économiques, ce qui suggère que des efforts supplémentaires sont nécessaires pour parvenir à un développement équilibré dans le domaine de la recherche.
👍