Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit

Created by
  • Haebom
Category
Empty

저자

Bohan Zhang, Zihao Wang, Hengyu Fu, Jason D. Lee

개요

본 논문은 딥러닝에서 신경망이 고차원 특징을 효율적으로 학습하는 방식을 이해하는 데 초점을 맞추고 있다. 특히, 은닉 부분 공간 $\boldsymbol{U}$를 가진 일반적인 가우시안 다중 인덱스 모델 $f(\boldsymbol{x})=g(\boldsymbol{U}\boldsymbol{x})$의 그래디언트 디센트 학습을 탐구한다. 링크 함수에 대한 일반적인 비퇴화 가정을 통해, 레이어별 그래디언트 디센트를 사용하여 훈련된 표준 2층 신경망이 $\widetilde{\mathcal{O}}(d)$ 샘플과 $\widetilde{\mathcal{O}}(d^2)$ 시간을 사용하여 $o_d(1)$ 테스트 오류로 타겟을 학습할 수 있음을 증명한다.

시사점, 한계점

샘플 및 시간 복잡도는 정보 이론적 한계와 일치하며, 선두 차수까지는 최적이다.
내부 가중치가 power-iteration 과정을 수행하여 은닉 부분 공간의 스펙트럼 시작을 암묵적으로 모방한다.
최적의 결과는 첫 번째 레이어가 $\mathcal{O}(1)$ 단계 이상 훈련된 경우에만 달성될 수 있음을 시사한다.
이 연구는 신경망이 샘플 및 시간 효율성 측면에서 계층적 함수를 효과적으로 학습할 수 있음을 보여준다.
👍