Sign In

FANformer: Improving Large Language Models Through Effective Periodicity Modeling

Created by
  • Haebom
Category
Empty

저자

Yihong Dong, Ge Li, Xue Jiang, Yongding Tao, Kechi Zhang, Hao Zhu, Huanyu Liu, Jiazheng Ding, Jia Li, Jinliang Deng, Hong Mei

개요

본 논문은 주기성이 인간 학습에서 구조적 지식 습득과 체계적 인지 과정에 중요한 역할을 하지만, Transformer에서의 주기성 모델링의 결함이 대규모 언어 모델(LLM)의 학습 효율과 기본 원리 확립에 영향을 미칠 수 있다는 점을 지적합니다. 이를 해결하기 위해, 주의 메커니즘에 푸리에 분석 네트워크(FAN)를 통합한 FANformer를 제안합니다. FANformer는 주의 메커니즘의 특징 투영 과정을 수정하여 효율적인 주기성 모델링을 달성합니다. 실험 결과, FANformer는 모델 크기와 학습 토큰 수를 늘릴 때 Transformer보다 우수한 학습 효율을 보이며, 1조 개의 토큰으로 사전 학습된 FANformer-1B는 유사한 매개변수 또는 학습 토큰을 가진 오픈소스 LLM보다 하위 작업에서 눈에 띄는 성능 향상을 보였습니다. 이를 통해 FANformer가 LLM 발전에 효과적이고 유망한 구조임을 보여줍니다.

시사점, 한계점

시사점:
Transformer의 주기성 모델링의 한계를 극복하여 LLM의 학습 효율 및 성능 향상 가능성 제시
FANformer를 통해 대규모 모델에서도 효율적인 학습 달성 가능성 확인
FANformer-1B의 우수한 하위 작업 성능을 통해 실제 응용 가능성 입증
한계점:
FANformer의 성능 향상이 특정 데이터셋이나 작업에 국한될 가능성
FANformer의 계산 비용 및 메모리 사용량에 대한 추가적인 분석 필요
다른 유형의 주기성 또는 비주기성 데이터에 대한 FANformer의 일반화 성능 검증 필요
👍