Este artículo presenta un método novedoso para el aprendizaje de políticas de control mediante la combinación del preentrenamiento con datos fuera de línea y el ajuste fino en línea mediante aprendizaje por refuerzo. Para abordar el problema de la pérdida de comportamientos útiles de las políticas fuera de línea en las primeras etapas del aprendizaje en línea tradicional, proponemos una técnica que utiliza una política entrenada fuera de línea como política candidata en un conjunto de políticas y amplía este conjunto añadiendo otra política para su posterior aprendizaje. Ambas políticas se configuran adaptativamente para interactuar con el entorno, y la política fuera de línea se mantiene completamente durante el aprendizaje en línea. Esto permite que la política fuera de línea explore de forma natural, conservando sus comportamientos útiles, y que la política recién añadida aprenda nuevos comportamientos útiles. Los resultados experimentales en diversas tareas demuestran la eficacia del método propuesto.