# Less Is More: Fast and Accurate Reasoning with Cross-Head Unified Sparse Attention

### 저자

Lijie Yang, Zhihao Zhang, Arti Jain, Shijie Cao, Baihong Yuan, Yiwei Chen, Zhihao Jia, Ravi Netravali

### 💡 개요

본 논문은 대규모 추론 모델의 테스트 시간 스케일링으로 인한 높은 연산 오버헤드를 해결하기 위해 "LessIsMore"라는 훈련-없는 희소 어텐션 메커니즘을 제안합니다. 이 방법은 추론 시 토큰 중요도가 여러 어텐션 헤드에 걸쳐 보편적이고 안정적이라는 통찰을 바탕으로, 헤드 간 통일된 토큰 선택과 최근 컨텍스트 보존을 통해 전역적으로 일관된 토큰 집합을 구축합니다. 이를 통해 정확도를 유지하거나 향상시키면서도 훨씬 적은 수의 토큰에 주의를 기울여 추론 속도를 크게 개선합니다.

### 🔑 시사점 및 한계

- 기존 희소 어텐션 방식의 정확도 저하 문제를 극복하며, 훈련 없이도 성능 향상을 달성합니다.

- 추론 과정 전반에 걸쳐 중요한 토큰 선택이 전역적으로 일관되게 유지될 수 있음을 입증합니다.

- 장기 추론에서 모델의 효율성과 정확도를 동시에 개선할 수 있는 새로운 방안을 제시합니다.

- 본 연구에서 제시된 토큰 중요도의 '안정성' 가정이 모든 종류의 추론 작업이나 모델 아키텍처에 대해 항상 유효한지에 대한 추가적인 검증이 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2508.07101)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).