Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Divergence of Empirical Neural Tangent Kernel in Classification Problems

Created by
  • Haebom

저자

Zixiong Yu, Songtao Tian, Guhan Chen

개요

본 논문은 과적합 상태(훈련 시간이 무한대로 접근할 때)에서 완전 연결 신경망(FCN)과 잔차 신경망(ResNet)이 Neural Tangent Kernel (NTK) 기반의 커널 로지스틱 회귀로 근사될 수 없음을 보여줍니다. 교차 엔트로피 손실을 사용하는 경우, 네트워크 너비가 얼마나 크든(유한한 한), 훈련 시간이 증가함에 따라 경험적 NTK는 훈련 샘플의 NTK에서 발산합니다. 이를 위해 논문은 먼저 다층 FCN과 ResNet에 대한 NTK의 엄격한 양의 정부호성을 증명하고, 훈련 중 교차 엔트로피 손실을 사용할 때, 훈련 샘플에 대한 경험적 NTK 행렬(그램 행렬)의 가장 작은 고유값이 양의 상수로 아래에서 경계가 지정되면 신경망 매개변수가 발산함을 증명합니다. 이러한 행동은 회귀 문제에서 일반적으로 관찰되는 지연 훈련 체제와는 극명하게 대조됩니다. 따라서 귀류법을 사용하여 네트워크 너비가 증가함에 따라 경험적 NTK가 모든 시간에 걸쳐 훈련 샘플에서 NTK로 균일하게 수렴하지 않음을 보여줍니다. 합성 데이터와 MNIST 분류 작업에 대한 실험을 통해 이론적 결과를 검증합니다. 이러한 발견은 NTK 이론이 이러한 맥락에서는 적용될 수 없음을 의미하며, 분류 문제에서 신경망을 이해하는 데 중요한 이론적 함의를 갖습니다.

시사점, 한계점

시사점: 과적합 상태의 분류 문제에서 FCN과 ResNet에 대한 NTK 이론의 비적용성을 밝힘으로써, 신경망의 동작에 대한 기존 이해에 도전하고 새로운 이론적 틀을 모색할 필요성을 제시합니다. NTK 이론에 기반한 기존 연구의 한계를 명확히 하고, 분류 문제에 대한 보다 정교한 이론적 분석의 필요성을 강조합니다.
한계점: 본 연구는 교차 엔트로피 손실에 국한되어 있으며, 다른 손실 함수를 사용하는 경우의 일반화 가능성은 추가 연구가 필요합니다. 또한, 특정한 네트워크 구조(FCN과 ResNet)에 대한 결과이며, 다른 아키텍처에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
👍