Cet article explore l'intérêt croissant pour l'apprentissage d'algorithmes de méta-apprentissage à partir de données, remplaçant les approches de conception manuelle traditionnelles, comme paradigme d'amélioration des performances des systèmes d'apprentissage automatique. Le méta-apprentissage est particulièrement prometteur en apprentissage par renforcement (RL), où des algorithmes d'apprentissage supervisé ou non supervisé, souvent non optimisés pour l'apprentissage par renforcement, sont fréquemment appliqués. Dans cet article, nous comparons empiriquement différents algorithmes de méta-apprentissage, tels que les algorithmes évolutionnaires pour l'optimisation des fonctions boîte noire ou les modèles de langage à grande échelle (LLM) proposant du code. Nous comparons et analysons les algorithmes de méta-apprentissage appliqués à divers pipelines d'RL, en examinant des facteurs tels que l'interprétabilité, le coût des échantillons et le temps d'apprentissage, ainsi que les performances du méta-apprentissage et des méta-tests. Sur la base de ces résultats, nous proposons plusieurs lignes directrices pour le méta-apprentissage de nouveaux algorithmes d'RL afin d'optimiser les performances des algorithmes appris à l'avenir.