En este artículo, proponemos un enfoque novedoso para automatizar la tarea de balanceo manual de los Dungeon Masters (DM) en Dungeons & Dragons (D&D), denominado «Generación de Encuentros mediante Aprendizaje por Refuerzo (NTRL)». NTRL genera encuentros basados en los atributos de los miembros del grupo en tiempo real, planteando el problema situacional del bandido. En comparación con las heurísticas de DM existentes, aumenta la intensidad de los encuentros al aumentar la duración del combate (+200%), aumentar el daño infligido a los miembros del grupo, reducir la pérdida de salud posterior al combate (-16,67%) y aumentar el número de muertes de jugadores (manteniendo baja la eliminación total del grupo). Mantiene una alta tasa de victorias (70%), a la vez que mejora la profundidad estratégica y aumenta la dificultad para mantener la equidad del juego, y supera a los encuentros diseñados por DMs humanos.