Este artículo estudia el uso de conjuntos de datos pequeños en el aprendizaje por refuerzo (AR) offline. Muchos benchmarks de AR offline utilizan más de un millón de puntos de datos, pero las aplicaciones del mundo real suelen depender de conjuntos de datos mucho más pequeños. El artículo muestra que los algoritmos de AR offline pueden sobreajustarse en conjuntos de datos pequeños, lo que puede resultar en un rendimiento deficiente. Para abordar este desafío, el artículo presenta "Sparse-Reg", una técnica de regularización basada en la escasez que mitiga el sobreajuste. Sparse-Reg permite un aprendizaje eficaz en entornos de datos limitados y supera a los modelos de referencia de vanguardia en el campo del control continuo.