Polynomial, trigonometric, and tropical activations
Created by
Haebom
저자
Ismail Khalfaoui-Hassani, Stefan Kesselheim
개요
본 논문은 심층 신경망에서 활성화 함수로 사용될 수 있는 함수들을 탐구한다. Hermite 다항식 기저, Fourier 삼각 기저, 그리고 다항식 기저의 열대화(tropicalization)로부터 얻어지는 기저를 포함한 직교 기저 기반의 함수들을 연구한다. 이러한 활성화 함수들을 사용하여 OpenWebText 상에서 다음 토큰 예측을 위한 GPT-2와 ImageNet 상에서 이미지 분류를 위한 ConvNeXt와 같은 심층 모델을 성공적으로 훈련할 수 있음을 보여준다. 특히 다항식 활성화 함수에서 흔히 발생하는 활성화 및 기울기의 폭발 및 소멸 문제를 해결하며, 대규모 학습 작업의 효율성 향상에 대한 가능성을 제시한다. 또한, 다항식 활성화 함수를 사용하는 신경망은 다변수 다항식 사상으로 해석될 수 있음을 보여줌으로써 신경망의 구조에 대한 통찰력을 제공한다. 마지막으로, Hermite 보간법을 사용하여 제안된 활성화 함수가 사전 훈련된 모델의 고전적인 활성화 함수와 그 도함수를 모두 일치시킴으로써 근사할 수 있음을 보여주며, 특히 미세 조정 작업에 유용함을 강조한다. 제안된 활성화 함수들은 torchortho 라이브러리(https://github.com/K-H-Ismail/torchortho)를 통해 사용 가능하다.