무한히 넓은 L-레이어 신경망의 훈련 역학을 텐서 프로그램(TP) 프레임워크를 사용하여 조사한 논문입니다. 최대 업데이트 매개변수화(μP) 하에서 확률적 경사 하강법(SGD)을 사용하여 훈련할 때, 활성화 함수에 대한 약한 조건 하에서 SGD가 초기 값에서 상당히 벗어난 선형적으로 독립적인 특징을 학습할 수 있음을 보여줍니다. 이 풍부한 특징 공간은 관련 데이터 정보를 포착하고 훈련 과정의 모든 수렴점이 전역 최소값이 되도록 합니다. 이 분석은 계층 간 특징 간의 상호 작용과 가우시안 랜덤 변수의 특성을 활용하여 심층 표현 학습에 대한 새로운 통찰력을 제공합니다. 실제 데이터셋에 대한 실험을 통해 이론적 발견을 검증합니다.