본 논문은 Mamba 모델의 표현 능력, 특히 COPY 작업과 Chain of Thought (CoT) 추론 능력을 분석합니다. Mamba는 상수 크기의 추론을 통해 Transformer의 성능을 유지하면서 계산 비용을 크게 줄일 수 있다는 장점이 있지만, 모든 경우에 성능과 비용 절감을 동시에 달성할 수 있는지는 불분명합니다. 논문에서는 Mamba와 선형 어텐션 간의 관계를 바탕으로 Mamba의 COPY 작업 수행 능력을 분석하고, 동적 계획법(DP) 문제로 표현 가능한 CoT 작업에 대한 Mamba의 성능을 평가합니다. 상수 크기의 Mamba는 COPY 작업에 어려움을 겪지만, 크기가 선형적으로 증가하면 COPY 작업을 정확하게 수행할 수 있으나 비용 절감 효과는 사라집니다. 또한, 임의의 DP 문제를 해결하는 데에는 Mamba의 총 비용이 표준 Transformer와 비슷하지만, 지역성과 같은 유리한 특성을 가진 DP 문제에서는 비용 절감 효과를 얻을 수 있음을 보입니다. 실험 결과는 COPY와 CoT 작업 학습에서 Mamba의 한계를 보여줍니다.