Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Divergence of Empirical Neural Tangent Kernel in Classification Problems

Created by
  • Haebom

저자

Zixiong Yu, Songtao Tian, Guhan Chen

개요

본 논문은 분류 문제에서 완전 연결 신경망(FCNs)과 잔차 신경망(ResNets)이 과적합(훈련 시간이 무한대로 접근할 때) 상태에서는 신경 탄젠트 커널(NTK) 기반의 커널 로지스틱 회귀로 근사될 수 없음을 보여줍니다. 크로스 엔트로피 손실을 사용할 때, 네트워크 너비가 아무리 크더라도(유한한 경우), 훈련 시간이 증가함에 따라 경험적 NTK는 훈련 샘플의 NTK와 발산합니다. 이를 위해 다층 FCNs와 ResNets의 NTKs의 엄격한 양의 정부호성을 먼저 증명하고, 크로스 엔트로피 손실을 사용하여 훈련 중에 훈련 샘플에 대한 경험적 NTK 행렬(그램 행렬)의 가장 작은 고유값이 양의 상수로 아래에서 경계가 지정되면 신경망 매개변수가 발산함을 증명합니다. 이는 회귀 문제에서 일반적으로 관찰되는 지연 훈련 체제와 극명하게 대조됩니다. 따라서 귀류법을 사용하여 네트워크 너비가 증가함에 따라 경험적 NTK가 모든 시간에 걸쳐 훈련 샘플에서 NTK로 균일하게 수렴하지 않음을 보여줍니다. 합성 데이터와 MNIST 분류 작업에 대한 실험을 통해 이론적 결과를 검증합니다. 이러한 발견은 NTK 이론이 이러한 맥락에서는 적용될 수 없음을 시사하며, 분류 문제에서 신경망을 이해하는 데 중요한 이론적 함의를 갖습니다.

시사점, 한계점

시사점: 분류 문제에서 과적합 시 NTK 이론의 적용 한계를 밝힘으로써 신경망의 이론적 이해에 기여합니다. NTK 기반의 분석이 모든 상황에 적용될 수 없다는 것을 보여줍니다.
한계점: 본 연구는 크로스 엔트로피 손실 함수에 국한되어 있습니다. 다른 손실 함수를 사용하는 경우 결과가 달라질 수 있습니다. 또한, 특정한 네트워크 구조(FCNs, ResNets)에 대한 분석이며, 다른 구조의 신경망에는 적용되지 않을 수 있습니다.
👍