Cet article aborde le problème de planification dynamique des flux de travail (CADWS), qui planifie efficacement les tâches de flux de travail arrivant dynamiquement dans un environnement de cloud computing. Concevoir une politique de planification efficace qui planifie les tâches, représentées sous forme de graphe acyclique dirigé (DAG), vers les machines virtuelles appropriées constitue un défi majeur. Les méthodes existantes basées sur l'apprentissage par renforcement profond (DRL) souffrent de limitations dues à leur forte dépendance à la conception de réseaux de politiques spécifiques au problème, aux hyperparamètres et aux retours de récompenses. Dans cet article, nous proposons GATES, une nouvelle méthode DRL qui combine un réseau de politiques basé sur les réseaux d'attention de graphes (GAN) avec une stratégie d'évolution. GATES apprend les relations topologiques entre les tâches au sein d'un DAG afin de capturer l'impact de la planification actuelle sur les tâches suivantes. Il évalue l'importance de chaque VM pour s'adapter à l'évolution dynamique de ses ressources. Il exploite la robustesse et la puissance exploratoire de la stratégie d'évolution, ainsi que sa tolérance aux récompenses différées, pour obtenir un apprentissage stable des politiques. Les résultats expérimentaux démontrent que GATES surpasse les algorithmes de pointe existants. Le code source est disponible sur GitHub.