Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Block-Biased Mamba for Long-Range Sequence Processing

Created by
  • Haebom

저자

Annan Yu, N. Benjamin Erichson

개요

Mamba는 입력 의존적 역학을 도입하여 기존 상태 공간 모델(SSM)을 확장한 모델로, 언어 모델링, 컴퓨터 비전, 기초 모델 등 다양한 분야에서 우수한 실험적 성능을 보여주었습니다. 그러나 장기 의존성을 위해 설계된 아키텍처에도 불구하고 장기 시계열 작업에서 성능이 저조한 놀라운 약점이 있습니다. 본 논문에서는 Mamba의 표현력, 귀납적 편향, 훈련 안정성 세 가지 관점에서 Mamba의 한계를 분석하고, 이를 해결하기 위해 Mamba의 S6 유닛을 확장한 $\text{B}_2\text{S}_6$를 제안합니다. $\text{B}_2\text{S}_6$는 블록 단위 선택적 역학과 채널별 바이어스를 결합하여 귀납적 편향을 개선하고 표현력과 안정성을 향상시킵니다. 실험 결과, $\text{B}_2\text{S}_6$는 장거리 아레나(LRA) 작업에서 S4 및 S4D를 능가하는 동시에 언어 모델링 벤치마크에서 Mamba의 성능을 유지합니다.

시사점, 한계점

시사점:
Mamba의 장기 시계열 작업 성능 저하 원인을 표현력, 귀납적 편향, 훈련 안정성 세 가지 측면에서 분석적으로 규명.
Mamba의 한계를 극복하는 새로운 모델 $\text{B}_2\text{S}_6$ 제안 및 그 효과 입증.
$\text{B}_2\text{S}_6$는 LRA 작업에서 기존 SSM보다 우수한 성능을 보이며, 동시에 언어 모델링에서 Mamba 수준의 성능 유지.
한계점:
$\text{B}_2\text{S}_6$의 성능 향상이 특정 작업 또는 데이터셋에 국한될 가능성 존재.
더욱 광범위한 작업과 데이터셋에 대한 추가 실험 필요.
제안된 $\text{B}_2\text{S}_6$의 이론적 분석이 더욱 심화될 필요가 있음.
👍