RNN의 장점인 선형적인 계산 및 공간 복잡성을 유지하면서, 장기 시퀀스에 대한 효율적인 훈련 및 추론을 가능하게 하는 동시에, 장기적인 무작위 접근성을 향상시키기 위해 Hierarchical Sparse Attention (HSA)을 제안합니다. HSA는 입력을 청크로 나누고, 상위 k개의 청크를 선택하여 정보를 계층적으로 집계합니다. 이 핵심 혁신은 각 청크 내부의 미세한 토큰 수준 정보를 기반으로 토큰-청크 관련성을 학습하는 것입니다. HSA와 Mamba를 결합한 RAMba는 6400만 컨텍스트에서 패스키 검색에 완벽한 정확도를 달성하고, 다양한 다운스트림 작업에서 상당한 개선을 보였습니다.