Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

$\pi$-Attention: Periodic Sparse Transformers for Efficient Long-Context Modeling

Created by
  • Haebom
Category
Empty

저자

Dong Liu, Yanxuan Yu

개요

Transformer는 자연어 처리 분야에서 혁신을 이루었지만, 시퀀스 길이의 제곱에 비례하는 계산 복잡도는 장거리 모델링의 근본적인 병목 현상으로 남아있습니다. RingAttention과 같은 희소 주의 메커니즘은 로컬 이웃에 주의를 제한하여 계산 비용을 줄이지만, 수용 필드가 제한적이고 적응성이 부족합니다. 본 논문에서는 주의를 링-로컬 이웃, 결정적 $\pi$-스트라이드 건너뛰기, 적응형 융합 게이트로 팩터링하는 주기적 희소 Transformer인 \PiAttention을 제시합니다. 주기적 구조는 먼 토큰에 대한 예측 가능한 커버리지를 제공하는 반면, 희소한 풋프린트는 레이어별 복잡성을 컨텍스트 길이에 대해 선형으로 유지합니다. \PiAttention은 RingAttention의 $\mathcal{O}(kL)$에 비해 $\mathcal{O}(kL + \pi \log L)$의 수용 필드 성장을 달성함을 증명했습니다(여기서 $k$는 로컬 윈도우 크기, $\pi$는 건너뛰기 주기, $L$은 시퀀스 길이). 언어 모델링, 검색, 비전-언어 작업에 대한 광범위한 실험을 통해 \PiAttention은 RingAttention보다 8.3% 낮은 혼란도와 동일한 컨텍스트 길이에 대해 50% 적은 GPU를 사용하면서 밀집 주의 품질과 일치하거나 능가함을 보여주었습니다. 자세한 어블레이션 및 시각화를 통해 효율적인 장거리 컨텍스트 모델링을 위해 주기적 건너뛰기, 적응형 융합 및 헤드 수준 희소성 조절의 중요성을 밝혔습니다.

시사점, 한계점

\PiAttention은 장거리 시퀀스 모델링에서 RingAttention보다 더 나은 성능을 보이며, 계산 효율성을 향상시켰습니다.
주기적 건너뛰기, 적응형 융합, 헤드 수준 희소성 조절이 모델의 핵심적인 요소입니다.
수용 필드 성장을 $\mathcal{O}(kL + \pi \log L)$로 개선했습니다.
제시된 논문의 한계점은 명시적으로 언급되지 않았습니다.
👍