Este artículo aborda el caso en el que la función de recompensa es submodular en el aprendizaje por refuerzo (AR). En el AR convencional, se asume que la función de recompensa es aditiva, pero en problemas reales como la planificación de rutas o el control adaptativo, resulta más apropiado modelarla como una función submodular con rendimientos decrecientes. En este artículo, proponemos una técnica de poda submodular basada en grafos para problemas de AR con funciones de recompensa submodulares. Demostramos que la técnica encuentra una política óptima aproximada dentro de un tiempo computable y analizamos la complejidad temporal y espacial, así como la garantía de rendimiento. Mediante experimentos con un entorno de referencia utilizado en estudios previos, confirmamos que la técnica propuesta obtiene mayores recompensas que los métodos existentes.