Bài báo này đánh giá toàn diện các xu hướng nghiên cứu gần đây về vấn đề căn chỉnh của các mô hình ngôn ngữ quy mô lớn (LLM) từ góc độ học tăng cường nghịch đảo (IRL). Bài báo nêu bật sự khác biệt giữa các kỹ thuật học tăng cường được sử dụng trong căn chỉnh LLM và các kỹ thuật được sử dụng trong các tác vụ học tăng cường truyền thống, và đặc biệt thảo luận về sự cần thiết của việc xây dựng các mô hình phần thưởng mạng nơ-ron từ dữ liệu của con người và những hàm ý chính thức và thực tiễn của sự thay đổi mô hình này. Sau khi giới thiệu các khái niệm cơ bản về học tăng cường, chúng tôi đề cập đến các khía cạnh thực tiễn của IRL đối với việc căn chỉnh LLM, bao gồm những tiến bộ gần đây, những thách thức và cơ hội chính, các tập dữ liệu, chuẩn mực, số liệu đánh giá, cơ sở hạ tầng, và các kỹ thuật đào tạo và suy luận hiệu quả về mặt tính toán. Dựa trên kết quả nghiên cứu về học tăng cường phần thưởng thưa thớt, chúng tôi đề xuất những thách thức mở và hướng đi trong tương lai. Bằng cách tổng hợp các kết quả nghiên cứu khác nhau, chúng tôi mong muốn cung cấp một cái nhìn tổng quan có cấu trúc và phê phán về lĩnh vực này, nêu bật những thách thức chưa được giải quyết và đề xuất các hướng đi đầy hứa hẹn trong tương lai để cải thiện việc căn chỉnh LLM với các kỹ thuật RL và IRL.