Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Polynomial, trigonometric, and tropical activations

Created by
  • Haebom

저자

Ismail Khalfaoui-Hassani, Stefan Kesselheim

개요

본 논문은 심층 신경망에서 활성화 함수로 사용될 수 있는 함수들을 탐구한다. Hermite 다항식 기저, Fourier 삼각 기저, 그리고 다항식 기저의 열대화(tropicalization)로부터 얻어지는 기저를 포함한 직교 기저 기반의 함수들을 연구한다. 이러한 활성화 함수들을 사용하여 OpenWebText 상에서 다음 토큰 예측을 위한 GPT-2와 ImageNet 상에서 이미지 분류를 위한 ConvNeXt와 같은 심층 모델을 성공적으로 훈련할 수 있음을 보여준다. 특히 다항식 활성화 함수에서 흔히 발생하는 활성화 및 기울기의 폭발 및 소멸 문제를 해결하며, 대규모 학습 작업의 효율성 향상에 대한 가능성을 제시한다. 또한, 다항식 활성화 함수를 사용하는 신경망은 다변수 다항식 사상으로 해석될 수 있음을 보여줌으로써 신경망의 구조에 대한 통찰력을 제공한다. 마지막으로, Hermite 보간법을 사용하여 제안된 활성화 함수가 사전 훈련된 모델의 고전적인 활성화 함수와 그 도함수를 모두 일치시킴으로써 근사할 수 있음을 보여주며, 특히 미세 조정 작업에 유용함을 강조한다. 제안된 활성화 함수들은 torchortho 라이브러리(https://github.com/K-H-Ismail/torchortho)를 통해 사용 가능하다.

시사점, 한계점

시사점:
직교 기저 기반의 새로운 활성화 함수 제안 및 그 효과성 검증.
다항식 활성화 함수의 폭발 및 소멸 문제 해결.
대규모 학습 작업의 효율성 향상 가능성 제시.
신경망 구조에 대한 새로운 해석 제공 (다변수 다항식 사상).
미세 조정 작업에 유용한 활성화 함수 제공.
torchortho 라이브러리를 통한 활성화 함수의 손쉬운 접근성 제공.
한계점:
제안된 활성화 함수의 일반적인 성능 및 적용 가능성에 대한 추가적인 연구 필요.
다양한 모델 및 데이터셋에 대한 실험적 검증 확대 필요.
다른 활성화 함수와의 비교 분석 강화 필요.
👍