Cet article étudie l'évaluation et la surveillance de l'intelligence artificielle (IA) basée sur des agents, un système multi-agents combinant des modèles de langage à grande échelle, des outils externes et une planification autonome. En nous appuyant sur le cadre à cinq axes et les indicateurs préliminaires (par exemple, biais de cible et réduction des dommages) présentés dans des études précédentes, nous présentons une implémentation algorithmique et des preuves empiriques. Plus précisément, nous proposons un algorithme de surveillance multidimensionnelle adaptative (AMDM) qui normalise les indicateurs hétérogènes, applique des seuils de moyenne mobile pondérés de manière exponentielle sur tous les axes et effectue une détection conjointe des anomalies à l'aide de la distance de Mahalanobis. Nous vérifions l'efficacité de l'algorithme par des simulations et des expériences sur le terrain. L'AMDM démontre une latence de détection des anomalies réduite et des taux de faux positifs réduits. De plus, nous améliorons la reproductibilité de l'étude en divulguant le code, les données et une liste de contrôle de reproductibilité associés.