Sign In

Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond

Created by
  • Haebom
Category
Empty

저자

Yekun Ke, Yingyu Liang, Zhenmei Shi, Zhao Song, Chiwun Yang

개요

본 논문은 Transformer 기반 모델을 시간 시계열 예측(TSF) 작업에 적용한 연구들의 한계점을 이론적으로 설명합니다. 기존 많은 연구들이 단순 선형 잔차 모델을 뛰어넘지 못하는 현상에 대한 이론적 이해가 부족했던 점을 지적하며, 어텐션 네트워크 학습의 비대칭성(Asymmetric Learning)을 그 원인으로 제시합니다. 특히, 다음 단계 예측 시계열에서 이전 단계와 현재 단계의 부호가 일치하지 않을 때 어텐션이 잔차 특징을 학습하는 데 실패하여 분포 외(OOD) 데이터, 특히 부호 불일치 데이터에 대한 일반화가 어렵다는 점을 밝힙니다. 반면 선형 잔차 네트워크는 이를 쉽게 수행할 수 있다는 점을 강조하며, 효과적이고 표현력 있는 Transformer 기반 아키텍처 설계를 위한 중요한 조건을 제시하고자 합니다.

시사점, 한계점

시사점: Transformer 기반 모델의 TSF 과제에서의 비효율성에 대한 최초의 이론적 설명을 제공합니다. 어텐션 네트워크 학습의 비대칭성이 TSF 성능 저하의 주요 원인임을 밝혀, 향후 효율적인 Transformer 기반 아키텍처 설계에 중요한 통찰력을 제공합니다. 선형 모델의 우수성과 Transformer 모델의 한계를 명확히 함으로써, TSF 문제에 대한 보다 효과적인 모델 개발 방향을 제시합니다.
한계점: 본 논문에서 제시된 이론적 설명이 모든 유형의 Transformer 기반 모델과 TSF 작업에 적용 가능한지에 대한 추가적인 연구가 필요합니다. 비대칭 학습 문제를 해결하기 위한 구체적인 아키텍처 설계 방안이나 알고리즘 제시는 부족합니다. 실험적 검증보다는 이론적 분석에 초점을 맞추고 있어, 실제 데이터셋에서의 성능 개선 여부를 확인하기 위한 추가적인 실험이 필요합니다.
👍