En este artículo, proponemos un método de preentrenamiento continuo con datos pequeños y específicos de tareas para abordar el problema del olvido catastrófico que surge en el preentrenamiento continuo de modelos lingüísticos a gran escala para nuevos dominios objetivo. Mientras que las estrategias actuales de reponderación de dominios se basan en la especificación manual de heurísticas basadas en la intuición humana o resultados empíricos, proponemos el primer marco integral basado en modelos, Data Mixing Agent, para parametrizar heurísticas más generales. Data Mixing Agent aprende heurísticas generalizables mediante aprendizaje por refuerzo a partir de un gran número de rutas de mezcla de datos y la retroalimentación de entornos de evaluación. En experimentos de preentrenamiento continuo sobre inferencia matemática, Data Mixing Agent supera a los modelos de referencia robustos al lograr un rendimiento equilibrado en los puntos de referencia de los campos fuente y objetivo. También se generaliza correctamente a campos fuente, modelos objetivo y espacios de dominio no vistos sin necesidad de reentrenamiento. Las aplicaciones directas a la generación de código demuestran su adaptabilidad a los dominios objetivo. Un análisis posterior demuestra que las heurísticas del agente se ajustan bien a la intuición humana y son eficientes para lograr un buen rendimiento del modelo con una pequeña cantidad de datos del campo fuente.