본 논문은 자기 회귀 언어 모델의 긴 컨텍스트 확장을 방해하는 스케일링된 dot-product attention의 2차 비용 문제를 해결하기 위해 고안된 Higher-order Linear Attention (HLA)을 소개합니다. HLA는 콤팩트한 prefix 충분 통계를 통해 더 높은 상호작용을 실현하는 인과적이고 스트리밍 방식의 메커니즘입니다. 2차의 경우, HLA는 상수 크기 상태를 유지하며 어떤 $n \times n$ 행렬도 구체화하지 않고 선형 시간에 토큰별 출력을 계산합니다.