본 논문은 강화학습(RL)을 대규모 언어 모델(LLM)과 통합하는 방법에 대한 종합적인 조사를 제공합니다. Proximal Policy Optimization (PPO), Q-Learning, Actor-Critic과 같은 주요 알고리즘을 강조하며, RLHF(Reinforcement Learning from Human Feedback), RLAIF(AI Feedback), DPO(Direct Preference Optimization), GRPO(Group Relative Policy Optimization) 등 LLM에 특화된 RL 기술에 대한 광범위한 기술 개요를 제공합니다. 코드 생성부터 도구 기반 추론까지 다양한 분야에서의 적용 사례를 분석하고, 보상 모델링, 피드백 메커니즘, 최적화 전략을 기반으로 비교 분류를 제시합니다. RLHF는 정렬에 있어 여전히 주도적이며, RLVR과 같은 결과 기반 RL은 단계적 추론을 크게 향상시키지만, 보상 해킹, 계산 비용, 확장 가능한 피드백 수집과 같은 지속적인 과제가 존재합니다. 혼합 RL 알고리즘, 검증자 기반 훈련, 다목표 정렬 프레임워크 등 새로운 방향에 대해서도 논의하며, RL 기반 LLM 개발을 위한 로드맵을 제시합니다.