Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers
Created by
Haebom
저자
Simon Roschmann, Quentin Bouniot, Vasilii Feofanov, Ievgen Redko, Zeynep Akata
개요
본 논문은 의료 및 산업 분야에서 중요한 시계열 분류 작업을 위해, 공개적으로 이용 가능한 시계열 데이터셋의 부족으로 인해 제한적인 시계열 기반 모델(TSFM) 개발 문제를 해결하고자 제안된 Time Vision Transformer (TiViT) 프레임워크를 소개한다. TiViT는 시계열을 이미지로 변환하여 대규모 이미지 데이터셋으로 사전 학습된 고정된 Vision Transformer (ViT)의 표현 능력을 활용한다. 이론적으로는 2D 패칭을 통해 레이블과 관련된 토큰 수를 늘리고 샘플 복잡도를 줄일 수 있음을 보이고, 실험적으로는 대규모 OpenCLIP 모델의 은닉 표현을 이용하여 표준 시계열 분류 벤치마크에서 최첨단 성능을 달성함을 보여준다. 또한, TiViT 표현의 구조를 분석하여 고유 차원이 높은 중간 레이어가 시계열 분류에 가장 효과적임을 밝히고, TiViT와 TSFM 표현 공간 간의 정렬을 평가하여 상호 보완적인 특징을 통해 성능 향상을 이룰 수 있음을 확인한다. 결론적으로, 비시각적 영역에서 시각적 표현을 재사용하는 새로운 방향을 제시한다. 코드는 https://github.com/ExplainableML/TiViT 에서 이용 가능하다.