본 논문은 순환 신경망(RNN)의 긴 문맥에 대한 훈련을 위한 새로운 방법을 제시합니다. 기존의 역전파를 통한 시간(BPTT) 방법은 메모리 사용량이 문맥 길이와 모델 크기에 따라 선형적으로 증가하는 반면, 본 논문에서는 제로-오더 최적화(ZOO) 방법, 특히 랜덤 벡터 기울기 추정(RGE)을 사용하여 BPTT를 대체합니다. RGE는 모델이 훈련 중에도 추론 모드를 유지하므로 메모리 사용량을 획기적으로 줄이고, BPTT보다 최대 19배 빠른 수렴 속도를 달성합니다. 특히 중앙 차분 RGE(CD-RGE)는 부드러운 대체 손실 함수를 최적화하여 훈련을 규제하고 일반화 성능을 향상시킵니다. 과적합, 전사, 언어 모델링 세 가지 설정에서 BPTT와 비교하여 동등하거나 우수한 성능을 보이며, 충분한 섭동을 사용하면 BPTT로 훈련된 모델과 동등하거나 더 나은 일반화 성능을 더 적은 단계로 달성합니다. FlashRNN 및 분산 추론과 같은 최신 기술을 활용하여 단계당 계산 시간도 단축합니다.