Cet article propose RIDGECUT, un nouveau cadre d'application de l'apprentissage par renforcement (RL) aux problèmes d'optimisation combinatoire, et plus particulièrement au problème de découpage normalisé. Pour pallier la difficulté d'intégrer les connaissances du domaine, une limitation des méthodes RL existantes, nous proposons une méthode qui exploite ces connaissances pour contraindre l'espace d'action. Prenant l'exemple d'un réseau routier urbain, nous transformons le graphe en une structure linéaire ou circulaire à l'aide de structures routières concentriques et radiales, et effectuons un apprentissage efficace à l'aide de transformateurs séquentiels. Ainsi, nous obtenons des valeurs de découpage normalisé plus faibles que les méthodes existantes et générons des partitions étroitement alignées avec la disposition spatiale. Bien que cette recherche se concentre sur les données de trafic, nous proposons un mécanisme général permettant d'intégrer les connaissances structurelles préalables sur les problèmes de partitionnement de graphes dans l'RL.