본 논문은 단순한 다음 토큰 예측 모델이 인간의 지능을 충실하게 모델링할 수 있는지에 대한 의문을 제기한다. 다음 토큰 예측의 두 가지 측면인 자동 회귀 추론과 강제 교사 학습을 구분하여, 강제 교사 학습이 정확한 다음 토큰 예측기를 학습하지 못하는 경우가 있음을 주장한다. 특히, 특정 유형의 작업에서는 강제 교사 학습이 정확한 다음 토큰 예측기를 학습하지 못할 수 있으며, 그 메커니즘을 설명하고 Transformer와 Mamba 아키텍처가 간단한 계획 작업에서도 실패하는 실험적 증거를 제시한다. 마지막으로, 더미 토큰을 사용하여 여러 토큰을 미리 예측하는 '교사 없는' 학습을 통해 이러한 실패를 해결할 수 있는 초기 증거를 제공하며, 다음 토큰 예측 패러다임을 넘어서는 연구를 촉구한다.