본 논문은 대규모 언어 모델(LLM)의 평가가 방대한 맥락에서 명시적인 사실을 표면화하는 능력에 집중되어 왔다는 점을 지적합니다. 현존 최고의 모델들은 이러한 과제에서 거의 완벽한 재현율을 보이지만, 이러한 성공은 정보가 서사적으로 내포되어 있을 때 다단계 계산에서의 근본적인 실패를 가리고 있습니다. 따라서, 정보가 서술적으로 제시될 때 LLM의 다단계 연산 능력의 한계를 드러내는 새로운 벤치마크인 Verbose ListOps (VLO)를 제안합니다. VLO는 결정적이고 중첩된 계산을 일관된 이야기 속에 프로그래밍 방식으로 엮어 모델이 명시적인 값을 찾는 것이 아니라 내부 상태를 추적하고 업데이트하도록 강제합니다. 실험 결과, ListOps 방정식을 거의 완벽한 정확도로 풀 수 있는 최고의 LLM도 10,000 토큰에서 VLO 성능이 급격히 저하됨을 보여줍니다. VLO 프레임워크는 어떠한 검증 가능한 추론 작업에도 확장 가능하며, 단순히 컨텍스트 창을 확장하는 것을 넘어 복잡한 지식 작업에 필요한 강력하고 상태를 유지하는 이해력을 갖춘 모델을 구축하는 데 중요한 도구를 제공합니다.