본 논문은 실세계 시나리오에서 자주 발생하는 긴 시퀀스를 적절히 모델링하는 것이 다양한 활용 사례를 열어줄 수 있지만, 심층 신경망이 여러 가지 이유로 이러한 작업에 어려움을 겪어왔다는 점을 지적합니다. 시스템 엔지니어링과 모델 설계의 최근 발전으로 확장된 컨텍스트 길이를 지원하는 모델의 확장이 가능해졌고, 특히 상태 공간 및 선형 순환 신경망 모델은 이론적으로 무한한 시퀀스 길이까지 확장될 수 있다고 주장됩니다. 그러나 이러한 주장이 실제로 가능한지 실험적으로 평가합니다. 결과적으로, 이러한 주장은 이론적으로는 타당할 수 있지만, 경험적으로 관찰되는 큰 실질적인 차이점이 존재함을 보여줍니다. 특히, 순환 모델은 어텐션을 사용하는 장문맥 LLM과 동일한 설정에서 여전히 어려움을 겪습니다. 또한, 서로 다른 귀납적 편향이 일관되지 않은 외삽 능력을 가짐을 보여주며, 이러한 패러다임에 대한 추가 연구와 장문맥 모델이 예상대로 작동하지 않는 이유를 조사해야 할 필요성을 강조합니다.