Este artículo aborda el problema de la Programación Dinámica de Flujos de Trabajo Consciente de Costos (CADWS), que programa eficientemente las tareas de flujo de trabajo que llegan dinámicamente en un entorno de computación en la nube. Diseñar una política de programación efectiva que programe tareas, representadas como un Grafo Acíclico Dirigido (DAG), a las máquinas virtuales (VM) apropiadas es un desafío clave. Los métodos existentes basados en Aprendizaje Profundo por Refuerzo (DRL) presentan limitaciones debido a su gran dependencia del diseño de la red de políticas específicas para cada problema, los hiperparámetros y la retroalimentación de recompensas. En este artículo, proponemos GATES, un novedoso método DRL que combina una red de políticas basada en redes de atención de grafos (GAN) con una estrategia de evolución. GATES aprende las relaciones topológicas entre las tareas dentro de un DAG para capturar el impacto de la programación de tareas actual en las tareas posteriores. Evalúa la importancia de cada VM para adaptarse a los recursos de VM que cambian dinámicamente. Aprovecha la robustez y el poder exploratorio de la estrategia de evolución, así como su tolerancia a las recompensas retrasadas, para lograr un aprendizaje de políticas estable. Los resultados experimentales demuestran que GATES supera a los algoritmos de vanguardia existentes. El código fuente está disponible en GitHub.