[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $\mu$P Parametrization

Created by
  • Haebom

저자

Zixiang Chen, Greg Yang, Qingyue Zhao, Quanquan Gu

개요

무한히 넓은 L-레이어 신경망의 훈련 역학을 텐서 프로그램(TP) 프레임워크를 사용하여 조사한 논문입니다. 최대 업데이트 매개변수화(μP) 하에서 확률적 경사 하강법(SGD)을 사용하여 훈련할 때, 활성화 함수에 대한 약한 조건 하에서 SGD가 초기 값에서 상당히 벗어난 선형적으로 독립적인 특징을 학습할 수 있음을 보여줍니다. 이 풍부한 특징 공간은 관련 데이터 정보를 포착하고 훈련 과정의 모든 수렴점이 전역 최소값이 되도록 합니다. 이 분석은 계층 간 특징 간의 상호 작용과 가우시안 랜덤 변수의 특성을 활용하여 심층 표현 학습에 대한 새로운 통찰력을 제공합니다. 실제 데이터셋에 대한 실험을 통해 이론적 발견을 검증합니다.

시사점, 한계점

시사점:
무한히 넓은 신경망에서 SGD와 μP 매개변수화를 사용하여 초기 값에서 상당히 벗어난 선형적으로 독립적인 특징을 학습할 수 있음을 보임.
학습된 특징이 관련 데이터 정보를 포착하고 전역 최소값으로 수렴함을 증명.
텐서 프로그램 프레임워크를 활용하여 심층 표현 학습에 대한 새로운 이론적 이해 제공.
한계점:
분석이 무한히 넓은 신경망에 국한됨. 실제 적용 가능성을 높이기 위해 유한 폭 신경망으로의 확장이 필요함.
활성화 함수에 대한 약한 조건이 실제 적용에 어떤 제약을 가질지 추가적인 연구가 필요함.
μP 매개변수화에 대한 추가적인 분석과 다른 매개변수화와의 비교 연구가 필요함.
👍