SWAA: Sliding Window Attention Adaptation for Efficient and Quality Preserving Long Context Processing

Created by

Haebom

저자

Yijiong Yu, Jiale Liu, Qingyun Wu, Huazheng Wang, Ji Pei

💡 개요

Transformer 기반 LLM의 자체 어텐션 메커니즘은 긴 문맥 처리 시 계산 복잡성으로 인해 비효율적입니다. 본 논문은 긴 문맥에서도 효율성과 성능을 유지하는 Sliding Window Attention Adaptation (SWAA)이라는 새로운 방법을 제안합니다. SWAA는 사전 학습된 모델과의 불일치 및 원거리 정보 접근 불가 문제를 해결하여, 30%에서 100%의 추론 속도 향상과 함께 우수한 성능을 달성합니다.

🔑 시사점 및 한계

•

사전 학습된 전체 어텐션 모델을 비용 없이 슬라이딩 윈도우 어텐션으로 효율적으로 적용할 수 있습니다.

•

"싱크" 토큰 보존, 일부 계층에서 전체 어텐션 사용 등의 전략을 통해 원거리 정보 접근 능력을 유지하며 긴 문맥에서의 성능 저하를 방지합니다.

•

다양한 시나리오에 최적화된 SWAA 구성을 통해 연산 오버헤드와 성능 간의 균형점을 찾을 수 있습니다.

•

제안된 전략들의 최적 조합은 실험적으로 검증되었으나, 특정 복잡한 작업이나 극히 긴 문맥에 대한 추가적인 성능 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage