Mixture of Attention Spans (MoA)는 긴 컨텍스트 Large Language Models (LLMs)에서 슬라이딩 윈도우 어텐션을 최적화하여 하드웨어 효율성을 높이는 방법론을 제시합니다. 기존의 균일한 윈도우 길이 접근 방식과 달리, MoA는 각 헤드와 레이어에 서로 다른 윈도우 길이를 자동으로 적용합니다. 다양한 윈도우 길이 설정과 입력 크기에 따른 스케일링 규칙을 탐색하고, 모델 프로파일링을 통해 각 헤드에 최적의 길이를 결정합니다. MoA는 입력 크기에 따라 일부 헤드는 더 넓은 범위를, 다른 헤드는 고정된 길이의 로컬 컨텍스트에 집중하도록 적응합니다.
시사점, 한계점
•
시사점:
◦
균일한 윈도우 방식 대비 유효 컨텍스트 길이 3.9배 증가
◦
검색 정확도 1.5-7.1배 향상 (Vicuna, Llama3 모델)
◦
전체 어텐션과의 성능 격차 감소 (최대 상대 성능 저하 5% 이내)
◦
GPU 메모리 1.2-1.4배 감소, 디코딩 처리량 6.6-8.2배, 1.7-1.9배 증가 (FlashAttention2, vLLM 대비)