Cet article présente un cadre de découverte automatique de nouveaux algorithmes. Il les représente sous forme de séquences de jetons d'opération et utilise la recherche arborescente de Monte Carlo d'ensemble (MCTS) guidée par l'apprentissage par renforcement. Ce cadre utilise une grammaire pour lier les jetons afin de former des procédures de plus en plus sophistiquées et d'en générer de nouveaux. Ainsi, nous redécouvrons, améliorons et générons de nouveaux algorithmes qui surpassent les méthodes existantes sur les problèmes d'optimisation combinatoire fortement NP-difficiles et les approches fondamentales de l'informatique quantique telles que l'algorithme de Grover et les algorithmes d'optimisation approximative quantique. Nous opérons au niveau du calcul plutôt qu'au niveau de la génération de code, générant des algorithmes spécifiquement adaptés aux instances problématiques.