Este artículo se centra en el aprendizaje por refuerzo (RL), especialmente en un contexto donde el aprendizaje de algoritmos de metaaprendizaje a partir de datos, en lugar del método convencional de diseño manual, está cobrando relevancia como paradigma para mejorar el rendimiento de los sistemas de aprendizaje automático. Si bien los algoritmos de aprendizaje por refuerzo suelen derivar de aprendizajes supervisados o no supervisados subóptimos, el metaaprendizaje ofrece la posibilidad de resolver este problema. Este estudio compara y analiza experimentalmente diferentes algoritmos de metaaprendizaje, como algoritmos evolutivos para la optimización de funciones de caja negra y modelos de lenguaje a gran escala (LLM) para la sugerencia de código, aplicados a diversas canalizaciones de RL. Además del rendimiento del metaaprendizaje y las metapruebas, investigamos factores como la interpretabilidad, el coste de la muestra y el tiempo de entrenamiento, y proponemos algunas directrices para el metaaprendizaje de algoritmos de RL de mayor rendimiento en el futuro.