Bài báo này trình bày một phương pháp mới để học các chính sách điều khiển bằng cách kết hợp tiền huấn luyện sử dụng dữ liệu ngoại tuyến và tinh chỉnh trực tuyến sử dụng học tăng cường. Để giải quyết vấn đề các hành vi hữu ích của các chính sách ngoại tuyến có thể bị mất trong giai đoạn đầu của học trực tuyến truyền thống, chúng tôi đề xuất một kỹ thuật sử dụng một chính sách đã được huấn luyện ngoại tuyến làm chính sách ứng viên trong một tập chính sách và mở rộng tập chính sách bằng cách thêm một chính sách khác để học sâu hơn. Hai chính sách được cấu hình thích ứng để tương tác với môi trường, và chính sách ngoại tuyến được duy trì hoàn toàn trong quá trình học trực tuyến. Điều này cho phép chính sách ngoại tuyến tham gia khám phá một cách tự nhiên trong khi vẫn giữ nguyên các hành vi hữu ích của nó, đồng thời cho phép chính sách mới được thêm vào học các hành vi hữu ích mới. Kết quả thử nghiệm trên nhiều tác vụ khác nhau chứng minh tính hiệu quả của phương pháp được đề xuất.