Este artículo presenta una investigación sobre la solución de problemas de depuración y observabilidad causados por la falta de determinismo del comportamiento de los agentes en sistemas de software modernos basados en agentes de IA que utilizan modelos de lenguaje a gran escala (LLM). En diversos marcos que definen la configuración de los agentes mediante indicaciones de lenguaje natural, las herramientas robustas de depuración y observabilidad son esenciales, ya que el comportamiento del agente no es determinista y depende de sus entradas. En este artículo, exploramos cómo mejorar la observabilidad del desarrollador aprovechando el descubrimiento de procesos y causal de las rutas de ejecución de los agentes. Esto ayuda a monitorizar y comprender la variabilidad del comportamiento de los agentes. Además, complementamos las técnicas de análisis estático basadas en LLM para distinguir entre cambios de comportamiento intencionados e imprevistos. Este enfoque permite a los desarrolladores controlar mejor las especificaciones en evolución e identificar aspectos funcionales que requieren definiciones más precisas y explícitas.