Sign In

Higher-order Linear Attention

Created by
  • Haebom
Category
Empty

저자

Yifan Zhang, Zhen Qin, Quanquan Gu

개요

본 논문은 자기 회귀 언어 모델의 긴 컨텍스트 확장을 방해하는 스케일링된 dot-product attention의 2차 비용 문제를 해결하기 위해 고안된 Higher-order Linear Attention (HLA)을 소개합니다. HLA는 콤팩트한 prefix 충분 통계를 통해 더 높은 상호작용을 실현하는 인과적이고 스트리밍 방식의 메커니즘입니다. 2차의 경우, HLA는 상수 크기 상태를 유지하며 어떤 $n \times n$ 행렬도 구체화하지 않고 선형 시간에 토큰별 출력을 계산합니다.

시사점, 한계점

시사점:
HLA는 attention과 유사한 데이터 의존적 혼합과 현대적인 순환 아키텍처의 효율성을 결합한 원리적이고 확장 가능한 구성 요소입니다.
HLA는 상수 크기 상태를 유지하며 선형 시간에 토큰별 출력을 계산합니다.
HLA는 인과적이며 스트리밍 방식입니다.
HLA는 3차 및 그 이상의 확장도 가능합니다.
한계점:
본 논문에서 구체적인 한계점 언급은 없으나, 모델의 성능과 실제 응용에서의 효율성은 추가 연구를 통해 검증되어야 할 수 있습니다.
👍