본 논문은 Mamba 모델의 계산 효율성과 표현 능력을 분석합니다. Mamba는 상수 크기의 추론 크기를 유지하여 긴 시퀀스 모델링에서 트랜스포머의 선형적인 추론 오버헤드 문제를 해결하려는 시도입니다. 본 논문은 COPY 연산과 Chain of Thought (CoT) 추론 능력에 초점을 맞춰 Mamba의 표현 능력을 분석하고, Mamba의 크기가 상수일 때 COPY 연산에 어려움을 겪는 반면, 크기가 선형적으로 증가할 때는 트랜스포머와 유사한 성능을 보이지만 계산 비용 절감 효과는 사라짐을 보입니다. 또한, 동적 계획법(DP) 문제로 표현되는 CoT 작업에서도 Mamba가 항상 트랜스포머보다 효율적이지는 않다는 것을 밝히고, 특히 지역성과 같은 유리한 특성을 갖는 DP 문제에서만 계산 비용 절감 효과를 보임을 실험적으로 확인합니다.