본 논문은 대규모 언어 모델(LLM)의 평가 방식에 대한 새로운 관점을 제시합니다. 기존의 평가 방식이 매우 긴 입력에서 명시적인 사실을 얼마나 잘 상기하는지에 초점을 맞춘 것과 달리, 본 논문에서는 다단계 추론 및 중간 상태 추적 능력을 평가하는 새로운 벤치마크인 Verbose ListOps (VLO)를 제안합니다. VLO는 결정론적 ListOps 계산을 서술적 위장 속에 포함시키고, 각 중간 결과에 대한 단계별 평가를 허용합니다. 실험 결과, ListOps를 거의 100% 정확도로 푸는 모델도 10,000 토큰만 넘어서면 VLO에서 성능이 급격히 저하되는 것을 보여줍니다. VLO는 모델의 추론 과정이 처음으로 벗어나는 지점을 보여줌으로써, 단순한 문맥 길이를 넘어 진정한 이해 능력을 평가할 수 있도록 합니다. 또한, VLO의 생성 파이프라인은 작업에 구애받지 않으므로, 계산, 기호, 귀납, 연역 또는 반박 가능 추론 등 다양한 추론 체계를 서술적 형태로 통합할 수 있습니다. 따라서 VLO는 단계별 명시적 지원이 없는 모델을 포함하여 차세대 추론 중심 모델 설계를 위한 재사용 가능한 테스트 환경을 제공합니다.