Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling

Created by
  • Haebom

저자

Monika Farsang, Ramin Hasani, Radu Grosu

개요

LrcSSM은 기존 선형 상태 공간 계층과 동일한 속도로 긴 시퀀스를 처리하는 비선형 순환 모델입니다. 상태 전이 행렬을 대각 행렬로 제한하고 매 단계마다 학습함으로써, 단일 prefix-scan을 사용하여 전체 시퀀스를 병렬로 계산할 수 있습니다. 이를 통해 입력 시퀀스 길이 T와 상태 차원 D에 대해 $\mathcal{O}(TD)$의 시간 및 메모리 복잡도와 $\mathcal{O}(\log T)$의 순차적 깊이를 달성합니다. 또한, Liquid-S4나 Mamba와 같은 다른 입력 변화 시스템에서는 제공하지 않는 형식적인 기울기 안정성 보장을 제공합니다. 네트워크 깊이 L에 대해 순전파 및 역전파 비용이 $\Theta(TDL)$ FLOPs이고, 낮은 순차적 깊이와 $\Theta(DL)$의 매개변수 수를 가지므로, Mamba에서 최근 관찰된 계산 최적화 스케일링 법칙 체제 ($\beta \approx 0.42$)를 따르며, 동일한 계산량에서 이차적 어텐션 Transformer보다 성능이 우수하고 FFT 기반 긴 합성곱의 메모리 오버헤드를 피합니다. 일련의 장기 예측 작업에서 LrcSSM은 LRU, S5 및 Mamba보다 성능이 뛰어납니다.

시사점, 한계점

시사점:
긴 시퀀스를 빠르게 처리하는 비선형 순환 모델을 제시합니다.
$\mathcal{O}(TD)$의 시간 및 메모리 복잡도와 $\mathcal{O}(\log T)$의 순차적 깊이를 달성합니다.
형식적인 기울기 안정성 보장을 제공합니다.
Mamba와 유사한 계산 최적화 스케일링 법칙을 따르며, 동일한 계산량에서 이차적 어텐션 Transformer보다 성능이 우수합니다.
장기 예측 작업에서 기존 모델들보다 우수한 성능을 보입니다.
한계점:
본 논문에서는 구체적인 한계점이 언급되지 않았습니다. 추가적인 실험 및 분석을 통해 한계점을 밝힐 필요가 있습니다.
👍