Sign In

Hardware-aligned Hierarchical Sparse Attention for Efficient Long-term Memory Access

Created by
  • Haebom
Category
Empty

저자

Xiang Hu, Jiaqi Leng, Jun Zhao, Kewei Tu, Wei Wu

개요

RNN의 장점인 선형적인 계산 및 공간 복잡성을 유지하면서, 장기 시퀀스에 대한 효율적인 훈련 및 추론을 가능하게 하는 동시에, 장기적인 무작위 접근성을 향상시키기 위해 Hierarchical Sparse Attention (HSA)을 제안합니다. HSA는 입력을 청크로 나누고, 상위 k개의 청크를 선택하여 정보를 계층적으로 집계합니다. 이 핵심 혁신은 각 청크 내부의 미세한 토큰 수준 정보를 기반으로 토큰-청크 관련성을 학습하는 것입니다. HSA와 Mamba를 결합한 RAMba는 6400만 컨텍스트에서 패스키 검색에 완벽한 정확도를 달성하고, 다양한 다운스트림 작업에서 상당한 개선을 보였습니다.

시사점, 한계점

시사점:
RNN의 효율성을 유지하면서 장기적인 무작위 접근성을 개선함.
in-domain 및 out-of-domain 컨텍스트 길이에서 정확한 청크 선택 가능.
HSA와 Mamba의 결합으로 RAMba는 장기 컨텍스트 모델링에서 잠재력을 보여줌.
상당한 메모리 공간 절약.
한계점:
논문에서 구체적인 한계점 언급 없음.
👍