본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 계산 복잡도 문제를 해결하기 위해 Sliding Window Attention Training (SWAT)을 제안합니다. LLM의 긴 시퀀스 처리에 대한 이차적 계산 복잡도 문제를 해결하기 위해 기존의 sparse attention이나 state space model과 같은 방법들이 제시되었지만, 성능 저하 또는 복잡한 구조를 초래하는 단점이 있습니다. SWAT는 기존 Transformer 구조를 유지하면서 효율적인 장문 처리를 가능하게 합니다. 소프트맥스 함수 대신 시그모이드 함수를 사용하고, 균형 잡힌 ALiBi와 Rotary Position Embedding을 활용하여 정보 압축 및 유지를 개선합니다. 실험 결과, SWAT은 8개의 벤치마크에서 최첨단 선형 순환 아키텍처를 능가하는 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
Transformer 구조를 유지하면서 장문 처리 효율을 크게 향상시키는 새로운 방법 제시.
◦
기존 방법들의 성능 저하 또는 복잡한 구조 문제를 해결.
◦
소프트맥스 대신 시그모이드 함수와 ALiBi, Rotary Position Embedding을 활용한 효과적인 정보 압축 및 유지 전략 제시.
◦
다양한 벤치마크에서 SOTA 성능 달성.
◦
공개된 코드를 통해 재현성 확보 가능.
•
한계점:
◦
제시된 방법이 모든 종류의 장문 처리 작업에 대해 동일한 수준의 효율성을 보장하는지에 대한 추가적인 연구 필요.