Este artículo revisa exhaustivamente las tendencias de investigación recientes sobre el problema de alineación de modelos lingüísticos a gran escala (LLM) desde una perspectiva de aprendizaje por refuerzo inverso (IRL). Destaca las diferencias entre las técnicas de aprendizaje por refuerzo utilizadas en la alineación de LLM y las utilizadas en tareas de aprendizaje por refuerzo tradicionales, y en particular discute la necesidad de construir modelos de recompensa de redes neuronales a partir de datos humanos y las implicaciones formales y prácticas de este cambio de paradigma. Tras introducir los conceptos básicos del aprendizaje por refuerzo, cubrimos aspectos prácticos del IRL para la alineación de LLM, incluyendo avances recientes, desafíos y oportunidades clave, conjuntos de datos, puntos de referencia, métricas de evaluación, infraestructuras y técnicas de entrenamiento e inferencia computacionalmente eficientes. Con base en los resultados de la investigación sobre aprendizaje por refuerzo de recompensa dispersa, sugerimos desafíos abiertos y futuras direcciones. Mediante la síntesis de diversos resultados de investigación, nuestro objetivo es proporcionar una visión general estructurada y crítica del campo, destacar los desafíos no resueltos y sugerir futuras direcciones prometedoras para mejorar la alineación de LLM con técnicas de RL e IRL.