본 논문은 언어 모델(LM)의 추론 능력 향상을 위한 강화 학습(RL) 알고리즘 설계에 대한 연구를 다룬다. 수학 및 코딩과 같은 영역에서 LM의 추론 능력 향상에 RL이 유망한 전략으로 떠올랐지만, 기존 RL 알고리즘은 로보틱스 애플리케이션에 초점을 맞춰 설계되었기에 LM 추론에는 적합하지 않다. 따라서 본 논문은 계산 제약으로 인해 상대적으로 작은 모델에 초점을 맞춰, LM 추론을 위한 RL 알고리즘 설계 결정에 대해 정확성과 계산 효율성 측면에서 분석한다. 주요 결과는 다음과 같다: (i) 온-폴리시 RL이 지도 학습 미세 조정(SFT)보다 성능이 훨씬 우수하며, (ii) PPO 기반 오프-폴리시 업데이트는 분산을 줄이는 대신 정확도를 높이고, (iii) KL 발산을 제거하면 더 간결한 생성과 높은 정확도를 얻을 수 있다. 또한, 추론과 역전파에 대한 최적 배치 크기가 다르다는 점이 계산 효율성의 주요 병목 현상임을 발견했다. 이를 해결하기 위해, 본 논문은 선제적 샘플링과 기울기 필터링을 수행하는 새로운 알고리즘 DASH를 제안한다. DASH는 정확도를 희생하지 않고 GRPO의 표준 구현에 비해 훈련 시간을 83% 단축시킨다. 본 연구 결과는 LM 추론을 위한 효과적인 RL 알고리즘 설계에 대한 귀중한 통찰력을 제공한다.