Dans cet article, nous proposons une nouvelle approche pour automatiser la tâche d'équilibrage manuel des Maîtres de Donjon (MD) dans Donjons & Dragons (D&D), appelée « Génération de Rencontres par Apprentissage par Renforcement » (NTRL). NTRL génère des rencontres basées sur les attributs des membres du groupe en temps réel, en définissant le problème du bandit situationnel. Comparée aux heuristiques de MD existantes, elle augmente l'intensité des rencontres en augmentant la durée du combat (+200 %), les dégâts infligés aux membres du groupe, en diminuant les pertes de santé après le combat (-16,67 %) et en augmentant le nombre de morts de joueurs (tout en maintenant un faible taux de destruction du groupe). Elle maintient un taux de victoire élevé (70 %) tout en améliorant la profondeur stratégique et en augmentant la difficulté pour préserver l'équité du jeu, et surpasse les rencontres conçues par des MD humains.