Cet article présente une nouvelle technique d'optimisation visant à améliorer l'efficacité de la méthode Runge-Kutta à stabilité étendue (ESRK), essentielle à la résolution de problèmes scientifiques et techniques à grande échelle. Au lieu de la conception manuelle conventionnelle ou de la méthode de recherche exhaustive, une approche hybride combinant algorithme génétique (AG) et apprentissage par renforcement (RL) est utilisée pour découvrir et optimiser automatiquement les heuristiques de la méthode ESRK à faible stockage. L'AG est responsable de la recherche dans l'espace de recherche, tandis que l'apprentissage par renforcement est responsable de l'amélioration dynamique de la sélection heuristique, ce qui améliore considérablement l'efficacité de calcul tout en maintenant la précision du quatrième ordre. Les résultats expérimentaux sur des problèmes de référence, notamment les systèmes Brusselator 1D et 2D et les équations de Navier-Stokes à l'état stationnaire, montrent que la méthode proposée réduit le temps d'exécution de l'IPOPT de 25 % par rapport au processus d'optimisation ESRK conventionnel, tout en maintenant la stabilité et la précision numériques. Cette étude démontre le potentiel d'amélioration de l'efficacité des ressources des simulations haute fidélité et d'extension du champ d'application de la méthode Runge-Kutta à faible stockage.