깊은 ReLU 네트워크가 작은 가중치로 초기화될 때, 경사하강법(GD)은 처음에는 매개변수 공간의 원점에 있는 안장점에 의해 지배됩니다. 이 논문은 엄격한 안장점에 대한 Hessian의 고유벡터와 유사한 역할을 하는 이른바 탈출 방향(escape directions)을 연구합니다. 연구 결과, 최적의 탈출 방향은 더 깊은 계층에서 낮은 계급의 편향을 특징으로 합니다. 즉, ℓ번째 계층 가중치 행렬의 첫 번째 특이값은 다른 특이값보다 적어도 ℓ<sup>1/4</sup>배 이상 큽니다. 또한, 이러한 탈출 방향에 대한 여러 관련 결과를 증명합니다. 이 결과는 GD가 병목 현상의 계급이 증가하는 일련의 안장점을 방문하는 깊은 ReLU 네트워크에서 안장점-안장점(Saddle-to-Saddle) 역학을 증명하는 첫 번째 단계라고 주장합니다.