본 논문은 효율적인 순환 디코딩을 제공하는 소프트맥스 어텐션의 대안으로서 선형 어텐션 기법에 대해 연구합니다. 특히 게이팅(gating)을 통합하여 계산상의 이점을 유지하면서 표준 선형 어텐션을 향상시킨 기존 연구(Mamba, RWKV 등)를 바탕으로, 게이팅 선형 어텐션(GLA) 모델의 인-컨텍스트 학습 능력을 조사합니다. 다층 GLA가 데이터 의존적 가중치를 가진 일반적인 가중 전처리 경사 하강법(WPGD) 알고리즘을 구현할 수 있음을 보이고, 이 가중치는 게이팅 메커니즘과 입력에 의해 유도되어 모델이 예측에 대한 개별 토큰의 기여를 제어할 수 있게 함을 증명합니다. 다중 작업 프롬프트를 포함하는 새로운 데이터 모델을 도입하여 WPGD 알고리즘 학습의 최적화 지형을 특징짓고, 온화한 조건 하에서 고유한 WPGD 솔루션에 해당하는 전역 최소값의 존재와 유일성(스케일링 제외)을 확립합니다. 마지막으로, 이러한 결과를 GLA의 최적화 지형을 탐구하는 데 적용하여 게이팅이 어떻게 컨텍스트 인식 학습을 촉진하고 일반 선형 어텐션보다 증명 가능하게 더 나은지에 대한 통찰력을 제공합니다.