Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization

Created by
  • Haebom

저자

Francois Chaubard, Mykel Kochenderfer

개요

본 논문은 순환 신경망(RNN)의 긴 문맥에 대한 훈련을 위한 새로운 방법을 제시합니다. 기존의 역전파를 통한 시간(BPTT) 방법은 메모리 사용량이 문맥 길이와 모델 크기에 따라 선형적으로 증가하는 반면, 본 논문에서는 제로-오더 최적화(ZOO) 방법, 특히 랜덤 벡터 기울기 추정(RGE)을 사용하여 BPTT를 대체합니다. RGE는 모델이 훈련 중에도 추론 모드를 유지하므로 메모리 사용량을 획기적으로 줄이고, BPTT보다 최대 19배 빠른 수렴 속도를 달성합니다. 특히 중앙 차분 RGE(CD-RGE)는 부드러운 대체 손실 함수를 최적화하여 훈련을 규제하고 일반화 성능을 향상시킵니다. 과적합, 전사, 언어 모델링 세 가지 설정에서 BPTT와 비교하여 동등하거나 우수한 성능을 보이며, 충분한 섭동을 사용하면 BPTT로 훈련된 모델과 동등하거나 더 나은 일반화 성능을 더 적은 단계로 달성합니다. FlashRNN 및 분산 추론과 같은 최신 기술을 활용하여 단계당 계산 시간도 단축합니다.

시사점, 한계점

시사점:
RNN을 긴 문맥으로 효율적으로 훈련할 수 있는 새로운 방법 제시.
BPTT에 비해 메모리 사용량과 훈련 시간을 획기적으로 감소.
CD-RGE를 통해 일반화 성능 향상.
FlashRNN 및 분산 추론과의 시너지 효과를 통해 실질적인 속도 향상.
한계점:
RGE는 BPTT보다 더 많은 순전파 단계를 필요로 함.
충분한 섭동이 일반화 성능에 중요한 역할을 하므로, 최적의 섭동 크기를 결정하는 것이 중요.
제안된 방법의 효율성은 사용하는 하드웨어 및 특정 작업에 따라 달라질 수 있음.
👍