본 논문은 Transformer 기반 모델을 시간 시계열 예측(TSF) 작업에 적용한 연구들의 한계점을 이론적으로 설명합니다. 기존 많은 연구들이 단순 선형 잔차 모델을 뛰어넘지 못하는 현상에 대한 이론적 이해가 부족했던 점을 지적하며, 어텐션 네트워크 학습의 비대칭성(Asymmetric Learning)을 그 원인으로 제시합니다. 특히, 다음 단계 예측 시계열에서 이전 단계와 현재 단계의 부호가 일치하지 않을 때 어텐션이 잔차 특징을 학습하는 데 실패하여 분포 외(OOD) 데이터, 특히 부호 불일치 데이터에 대한 일반화가 어렵다는 점을 밝힙니다. 반면 선형 잔차 네트워크는 이를 쉽게 수행할 수 있다는 점을 강조하며, 효과적이고 표현력 있는 Transformer 기반 아키텍처 설계를 위한 중요한 조건을 제시하고자 합니다.