Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReDit: Reward Dithering for Improved LLM Policy Optimization

Created by
  • Haebom

저자

Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu

개요

DeepSeek-R1은 규칙 기반 보상 시스템을 통해 LLM의 추론 능력을 향상시켰지만, 이러한 이산적 보상 함수는 기울기 이상, 불안정한 최적화, 느린 수렴으로 이어질 수 있습니다. ReDit은 이산 보상 신호에 간단한 랜덤 노이즈를 추가하여 이 문제를 해결하는 방법입니다. 이러한 섭동된 보상을 통해 학습 과정 전반에 걸쳐 탐색적 기울기가 지속적으로 제공되어 더 부드러운 기울기 업데이트와 수렴 속도 향상을 가능하게 합니다. 주입된 노이즈는 또한 평평한 보상 영역에 확률적 요소를 도입하여 모델이 새로운 정책을 탐색하고 지역적 최적점에서 벗어나도록 장려합니다. 다양한 작업에 대한 실험은 ReDit의 효과와 효율성을 보여줍니다. ReDit은 평균적으로 기존 GRPO와 비슷한 성능을 달성하면서 약 10%의 학습 단계만 사용하며, 유사한 기간 동안 학습했을 때 기존 GRPO보다 4% 향상된 성능을 보입니다. 시각화는 ReDit을 사용하면 기울기 문제가 크게 완화됨을 확인시켜 줍니다. 또한, 이러한 장점을 더욱 검증하기 위한 이론적 분석이 제공됩니다.

시사점, 한계점

시사점:
이산적 보상 함수의 기울기 이상, 불안정한 최적화, 느린 수렴 문제를 효과적으로 해결하는 ReDit 방법 제시.
ReDit을 통해 기존 GRPO 대비 10%의 학습 단계만으로도 유사한 성능 달성 및 4%의 성능 향상 가능성 확인.
랜덤 노이즈를 통한 보상 섭동이 모델의 탐색 능력 향상 및 지역적 최적점 탈출에 효과적임을 실험적으로 증명.
이론적 분석을 통해 ReDit의 장점을 뒷받침.
한계점:
ReDit의 성능 향상이 특정 유형의 문제 또는 모델에만 국한될 가능성.
추가적인 노이즈가 학습 과정에 미치는 부정적인 영향에 대한 추가 연구 필요.
사용된 랜덤 노이즈의 최적 분포 및 강도에 대한 추가적인 연구 필요.
👍