DeepSeek-R1은 규칙 기반 보상 시스템을 통해 LLM의 추론 능력을 향상시켰지만, 이러한 이산적 보상 함수는 기울기 이상, 불안정한 최적화, 느린 수렴으로 이어질 수 있습니다. ReDit은 이산 보상 신호에 간단한 랜덤 노이즈를 추가하여 이 문제를 해결하는 방법입니다. 이러한 섭동된 보상을 통해 학습 과정 전반에 걸쳐 탐색적 기울기가 지속적으로 제공되어 더 부드러운 기울기 업데이트와 수렴 속도 향상을 가능하게 합니다. 주입된 노이즈는 또한 평평한 보상 영역에 확률적 요소를 도입하여 모델이 새로운 정책을 탐색하고 지역적 최적점에서 벗어나도록 장려합니다. 다양한 작업에 대한 실험은 ReDit의 효과와 효율성을 보여줍니다. ReDit은 평균적으로 기존 GRPO와 비슷한 성능을 달성하면서 약 10%의 학습 단계만 사용하며, 유사한 기간 동안 학습했을 때 기존 GRPO보다 4% 향상된 성능을 보입니다. 시각화는 ReDit을 사용하면 기울기 문제가 크게 완화됨을 확인시켜 줍니다. 또한, 이러한 장점을 더욱 검증하기 위한 이론적 분석이 제공됩니다.