Sign In

Uncertainty Quantification From Scaling Laws in Deep Neural Networks

Created by
  • Haebom
Category
Empty

저자

Ibrahim Elsharkawy, Yonatan Kahn, Benjamin Hooberman

개요

본 논문은 물리 과학에서 머신러닝 분석의 활용에 필수적인 머신러닝 분석의 불확실성 정량화에 초점을 맞추고 있다. 특히, 신경망의 초기화 분포에서 유래하는 불확실성에 주목하여, 무한 너비 한계에서 신경 탄젠트 커널(NTK) 초기화를 사용한 다층 퍼셉트론(MLP) 앙상블의 테스트 손실 $\mathcal{L}$의 평균 $\mu_{\mathcal{L}}$과 분산 $\sigma_{\mathcal{L}}^2$를 계산하고, MNIST 분류, CIFAR 분류, 칼로리미터 에너지 회귀 세 가지 예시 작업에 대해 유한 너비 네트워크의 결과와 경험적으로 비교한다. 훈련 세트 크기 $N_\mathcal{D}$의 함수로 $\mu_{\mathcal{L}}$과 $\sigma_{\mathcal{L}}$에 대한 스케일링 법칙을 관찰하지만, 변동 계수 $\epsilon_{\mathcal{L}} \equiv \sigma_{\mathcal{L}}/\mu_{\mathcal{L}}$는 충분히 큰 $N_\mathcal{D}$에 대해 무한 너비와 유한 너비 모두에서 $N_\mathcal{D}$와 무관하게 됨을 발견한다. 이는 유한 너비 네트워크의 변동 계수가 무한 너비 값으로 근사될 수 있으며, 원칙적으로 유한 너비 섭동 이론을 사용하여 계산될 수 있음을 시사한다.

시사점, 한계점

시사점: 유한 너비 신경망의 변동 계수를 무한 너비 값으로 근사할 수 있다는 가능성 제시. 무한 너비 섭동 이론을 이용한 불확실성 계산 가능성 제시. 신경망 초기화 분포에서 기인하는 불확실성에 대한 이해 증진.
한계점: 제시된 세 가지 예시 작업에 국한된 결과. 다양한 네트워크 구조 및 작업에 대한 일반화 가능성 검증 필요. 유한 너비 섭동 이론의 계산적 복잡성 및 실용성에 대한 추가 연구 필요. 실제 응용 분야에서의 실질적인 불확실성 정량화 방법론 제시 부족.
👍