# Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

### 저자

Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu

### 💡 개요

본 연구는 긴 문맥 처리의 어려움을 해결하기 위해 계층적 희소 어텐션 모델의 길이 일반화 성능을 체계적으로 분석합니다. 특히, 청크 인코더, 바이패싱 잔차 경로, 훈련 시 선택적 희소성 강제화라는 세 가지 핵심 설계 원칙이 모델 성능에 중요함을 규명합니다. 이러한 원칙들을 통합함으로써, 4K 문맥에서 훈련된 모델을 3200만 토큰까지 확장하는 데 성공하여 훈련 없는 길이 외삽 성능의 새로운 최고 기록을 달성했습니다.

### 🔑 시사점 및 한계

- 계층적 희소 어텐션 모델의 길이 일반화 성능 향상을 위한 명확한 설계 원칙 제시

- 훈련 없이도 극도로 긴 문맥으로의 성공적인 일반화 가능성 입증

- 이론적 배경과 실증적 증거를 바탕으로 향후 고성능 장문맥 언어 모델 개발 방향 제시

---

[PDF 보기](https://arxiv.org/pdf/2510.17196)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
