본 논문은 장문맥락 모델링의 요구 증가에 따라 제한점으로 작용하는 표준 self-attention 메커니즘의 2차 복잡도 문제를 해결하기 위해, 학습 가능한 동적 마스크 희소 어텐션 메커니즘인 Dynamic Mask Attention (DMA)을 제시한다. DMA는 내용 인식 및 위치 인식 희소성을 활용하여 계산 복잡도를 줄이는 동시에 정보 손실을 최소화한다. 내용 인식 희소 마스크는 값 표현으로부터 동적으로 생성되어 중요 정보에 집중하고, 위치 인식 희소 어텐션 계산은 불필요한 계산 영역을 건너뛴다. 실험 결과, DMA는 Chinchilla Scaling Law 설정 하에서 perplexity 측면에서 다양한 어텐션 메커니즘(multi-head attention, sliding window attention, multi-head latent attention, 기존 희소 어텐션)을 능가하며, 다중 질의 연관 회상 작업에서도 우수한 성능과 효율성을 보였다. 특히 17억 파라미터 모델 평가에서 표준 벤치마크 성능과 needle-in-a-haystack 작업 모두에서 multi-head attention을 능가하는 결과를 보였다.