Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mixture of Attention Spans: Optimizing LLM Inference Efficiency with Heterogeneous Sliding-Window Lengths

Created by
  • Haebom
Category
Empty

저자

Tianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang

개요

Mixture of Attention Spans (MoA)는 긴 컨텍스트 Large Language Models (LLMs)에서 슬라이딩 윈도우 어텐션을 최적화하여 하드웨어 효율성을 높이는 방법론을 제시합니다. 기존의 균일한 윈도우 길이 접근 방식과 달리, MoA는 각 헤드와 레이어에 서로 다른 윈도우 길이를 자동으로 적용합니다. 다양한 윈도우 길이 설정과 입력 크기에 따른 스케일링 규칙을 탐색하고, 모델 프로파일링을 통해 각 헤드에 최적의 길이를 결정합니다. MoA는 입력 크기에 따라 일부 헤드는 더 넓은 범위를, 다른 헤드는 고정된 길이의 로컬 컨텍스트에 집중하도록 적응합니다.

시사점, 한계점

시사점:
균일한 윈도우 방식 대비 유효 컨텍스트 길이 3.9배 증가
검색 정확도 1.5-7.1배 향상 (Vicuna, Llama3 모델)
전체 어텐션과의 성능 격차 감소 (최대 상대 성능 저하 5% 이내)
GPU 메모리 1.2-1.4배 감소, 디코딩 처리량 6.6-8.2배, 1.7-1.9배 증가 (FlashAttention2, vLLM 대비)
한계점:
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않음.
👍