본 논문은 장기 기억을 효율적인 초장기 컨텍스트 모델링 문제로 설정하고, 이를 해결하기 위해 희소성, 임의 접근 유연성, 길이 일반화의 세 가지 핵심 속성을 갖춘 Hierarchical Sparse Attention (HSA)를 제안합니다. HSA를 Transformer에 통합하여 80억 개의 파라미터를 가진 MoE 모델인 HSA-UltraLong을 구축하고, 8조 개 이상의 토큰으로 학습시켰습니다. HSA-UltraLong은 in-domain 및 out-of-domain 컨텍스트 길이의 다양한 작업에서 평가되어 초장기 컨텍스트 처리 능력을 입증했습니다.