Cet article étudie l'utilisation de petits ensembles de données dans l'apprentissage par renforcement hors ligne (RL). De nombreux tests de performance RL hors ligne utilisent plus d'un million de points de données, mais les applications concrètes reposent souvent sur des ensembles de données beaucoup plus petits. L'article montre que les algorithmes RL hors ligne peuvent sur-ajuster de petits ensembles de données, ce qui peut entraîner de mauvaises performances. Pour relever ce défi, l'article présente « Sparse-Reg », une technique de régularisation basée sur la parcimonie qui atténue le sur-ajustement. Sparse-Reg permet un apprentissage efficace dans des environnements de données limités et surpasse les modèles de référence de pointe dans le domaine du contrôle continu.