Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

개요

본 논문은 Transformer의 비선형성을 강화하여 성능을 향상시키는 새로운 활성화 함수인 PolyCom을 제안합니다. 기존의 ReLU, GeLU, SwishGLU 등과 달리, PolyCom은 다항식 조합을 기반으로 하며, 이론적으로 최적의 근사율을 달성함을 수학적으로 증명합니다. 이는 PolyCom을 사용하는 네트워크가 Sobolev 공간에서 일반적인 매끄러운 함수를 근사하는 데 최소한의 파라미터만 필요함을 의미합니다. 대규모 언어 모델(LLM)의 사전 학습 설정에서 실험을 진행하여, PolyCom이 정확도와 수렴 속도 측면에서 기존 활성화 함수보다 우수한 성능을 보임을 실험적으로 확인하였습니다. 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
Transformer의 비선형성을 효과적으로 증강하는 새로운 활성화 함수 PolyCom 제시.
PolyCom의 최적 근사율을 이론적으로 증명, 매끄러운 함수 근사에 대한 효율성 입증.
LLM의 사전 학습에서 PolyCom의 적용을 통해 정확도 및 수렴 속도 향상 확인.
다양한 LLM 아키텍처(밀집 및 희소)에서의 성능 향상 확인.
한계점:
본 논문에서 제시된 이론적 분석 및 실험 결과의 일반화 가능성에 대한 추가 연구 필요.
PolyCom의 계산 비용 및 메모리 사용량에 대한 추가적인 분석 필요.
다른 종류의 모델이나 작업에 대한 PolyCom의 일반화 성능에 대한 추가 연구 필요.
👍