Cet article passe en revue de manière exhaustive les tendances récentes de la recherche sur le problème de l'alignement des modèles linguistiques à grande échelle (LLM) dans une perspective d'apprentissage par renforcement inverse (IRL). Il met en évidence les différences entre les techniques d'apprentissage par renforcement utilisées dans l'alignement LLM et celles utilisées dans les tâches traditionnelles d'apprentissage par renforcement. Il aborde notamment la nécessité de construire des modèles de récompense pour réseaux neuronaux à partir de données humaines, ainsi que les implications formelles et pratiques de ce changement de paradigme. Après avoir présenté les concepts fondamentaux de l'apprentissage par renforcement, nous abordons les aspects pratiques de l'IRL pour l'alignement LLM, notamment les avancées récentes, les principaux défis et opportunités, les jeux de données, les benchmarks, les indicateurs d'évaluation, les infrastructures et les techniques d'apprentissage et d'inférence performantes. Sur la base des résultats de recherche sur l'apprentissage par renforcement par récompenses parcimonieuses, nous suggérons des défis ouverts et des pistes d'avenir. En synthétisant divers résultats de recherche, nous souhaitons fournir une vue d'ensemble structurée et critique du domaine, mettre en évidence les défis non résolus et suggérer des pistes prometteuses pour améliorer l'alignement des LLM avec les techniques d'apprentissage par renforcement et d'IRL.