Este artículo estudia la evaluación y monitorización de la inteligencia artificial (IA) basada en agentes, un sistema multiagente que combina modelos de lenguaje a gran escala, herramientas externas y planificación autónoma. Con base en el marco de cinco ejes y los indicadores preliminares (p. ej., sesgo del objetivo y reducción de daños) presentados en estudios previos, presentamos una implementación algorítmica y evidencia empírica. Específicamente, proponemos un algoritmo de Monitoreo Multidimensional Adaptativo (AMDM) que normaliza indicadores heterogéneos, aplica umbrales de media móvil ponderados exponencialmente en los ejes y realiza la detección conjunta de anomalías utilizando la distancia de Mahalanobis. Verificamos la efectividad del algoritmo mediante simulaciones y experimentos de campo. AMDM demuestra una latencia de detección de anomalías reducida y tasas de falsos positivos reducidas. Además, mejoramos la reproducibilidad del estudio al divulgar el código, los datos y una lista de verificación de reproducibilidad relacionados.