본 논문은 Mamba와 RWKV와 같은 최신 순환 신경망(RNN) 아키텍처의 언어 능력을 분석합니다. 트랜스포머 기반 모델과 달리, 이러한 아키텍처는 모든 문맥 정보를 고정 크기의 상태에 인코딩하여 추론 효율성을 높입니다. 하지만 이 접근 방식은 토큰 데이터 간의 충돌로 인한 정보 간섭을 야기하여 특정 문맥 길이를 넘어서면 성능 저하와 일관성 없는 출력을 초래할 수 있습니다. 이를 방지하기 위해 대부분의 RNN은 이전 토큰을 "잊는" 메커니즘을 통합합니다. 본 논문에서는 Mamba 기반 모델이 내장된 망각 메커니즘에도 불구하고 이전 토큰을 효과적으로 잊는 데 어려움을 겪는다는 것을 밝힙니다. 이는 상태 크기에 비해 너무 짧은 문맥으로 학습되었기 때문이며, 이로 인해 망각을 학습할 필요 없이도 잘 수행할 수 있었습니다. 또한, 모델이 망각을 학습하는 데 필요한 최소 학습 길이는 상태 크기에 선형적으로 비례하고, 5자리 암호의 정확한 검색을 위한 최대 문맥 길이는 상태 크기에 지수적으로 비례한다는 것을 보여줍니다. 이는 모델이 망각이 시작되는 시점을 넘어서도 일부 정보를 유지한다는 것을 의미합니다. 이러한 결과는 현재 RNN 아키텍처의 중요한 한계를 강조하고, 긴 문맥 모델링을 개선하기 위한 귀중한 통찰력을 제공합니다. 향후 RNN 설계는 견고한 성능을 달성하기 위해 상태 크기, 학습 길이 및 망각 메커니즘 간의 상호 작용을 고려해야 함을 시사합니다.