Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
Created by
Haebom
저자
Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Youbang Sun, Yuchen Fan, Xuekai Zhu, Biqing Qi, Ning Ding, Bowen Zhou
개요
본 논문은 Language Model (LM)의 context length 확장을 위한 Rotary Position Embedding (RoPE) 개선 연구에 대한 것이다. 기존 연구들이 주로 attention 내 RoPE의 한계점에 초점을 맞춘 것과 달리, 본 논문은 LM의 거의 모든 부분에서 발생하는 길이 일반화(length generalization)에 대한 RoPE의 부정적 영향을 밝힌다. 이산 신호 처리 이론을 이용하여 RoPE가 비균일 이산 푸리에 변환(Non-Uniform Discrete Fourier Transform)을 암시적으로 달성함으로써 주기적인 attention을 가능하게 한다는 것을 보여준다. 그러나 선형층과 활성화 함수에 의한 스펙트럼 손상과 시간 영역 절단으로 인한 빈약하게 학습된 주파수 성분으로 인해 이러한 주기성이 약화된다. 이러한 관찰을 바탕으로, 본 논문은 attention의 주파수 영역 특성을 향상시켜 주기적 확장과 길이 일반화를 모두 개선하는 Fourier Position Embedding (FoPE)을 제안한다. FoPE는 푸리에 급수를 구성하고 파괴적인 주파수 성분을 제거하여 스펙트럼 손상에 대한 모델의 강건성을 높인다. 다양한 모델 규모와 벤치마크에 대한 실험 결과, FoPE는 다양한 context window 내에서 다른 기준 모델들보다 더 안정적인 성능을 유지함을 보여준다. 여러 분석과 ablation 연구는 본 방법과 이론적 모델링에 대한 추가적인 지원을 제공한다.
시사점, 한계점
•
시사점:
◦
RoPE의 한계점을 이산 신호 처리 이론 관점에서 분석하고, LM의 길이 일반화에 대한 부정적 영향을 규명하였다.
◦
FoPE라는 새로운 위치 임베딩 방법을 제안하여 RoPE의 한계를 극복하고 context length 확장에 대한 성능을 향상시켰다.
◦
다양한 모델 규모와 벤치마크에서 FoPE의 우수성을 실험적으로 검증하였다.
•
한계점:
◦
FoPE의 효과가 모든 종류의 LM에 대해 일반화될 수 있는지 추가적인 연구가 필요하다.
◦
FoPE의 계산 복잡도가 RoPE에 비해 증가할 수 있다는 점을 고려해야 한다.
◦
본 논문에서 제시된 이론적 분석이 모든 상황에 적용 가능한지에 대한 추가적인 검증이 필요하다.