Transformer는 자연어 처리 분야에서 혁신을 이루었지만, 시퀀스 길이의 제곱에 비례하는 계산 복잡도는 장거리 모델링의 근본적인 병목 현상으로 남아있습니다. RingAttention과 같은 희소 주의 메커니즘은 로컬 이웃에 주의를 제한하여 계산 비용을 줄이지만, 수용 필드가 제한적이고 적응성이 부족합니다. 본 논문에서는 주의를 링-로컬 이웃, 결정적 $\pi$-스트라이드 건너뛰기, 적응형 융합 게이트로 팩터링하는 주기적 희소 Transformer인 \PiAttention을 제시합니다. 주기적 구조는 먼 토큰에 대한 예측 가능한 커버리지를 제공하는 반면, 희소한 풋프린트는 레이어별 복잡성을 컨텍스트 길이에 대해 선형으로 유지합니다. \PiAttention은 RingAttention의 $\mathcal{O}(kL)$에 비해 $\mathcal{O}(kL + \pi \log L)$의 수용 필드 성장을 달성함을 증명했습니다(여기서 $k$는 로컬 윈도우 크기, $\pi$는 건너뛰기 주기, $L$은 시퀀스 길이). 언어 모델링, 검색, 비전-언어 작업에 대한 광범위한 실험을 통해 \PiAttention은 RingAttention보다 8.3% 낮은 혼란도와 동일한 컨텍스트 길이에 대해 50% 적은 GPU를 사용하면서 밀집 주의 품질과 일치하거나 능가함을 보여주었습니다. 자세한 어블레이션 및 시각화를 통해 효율적인 장거리 컨텍스트 모델링을 위해 주기적 건너뛰기, 적응형 융합 및 헤드 수준 희소성 조절의 중요성을 밝혔습니다.