본 논문은 대규모 언어 모델(LLM)의 평가가 주로 방대한 맥락에서 명시적인 사실을 찾아내는 능력에 집중되어 온 점을 지적하며, 이러한 평가 방식이 인간의 복잡한 추론 과정을 제대로 반영하지 못한다고 주장합니다. 이에 연구진은 중첩된 계산을 일관된 이야기 속에 프로그래밍 방식으로 엮어, 모델이 명시적인 값을 찾는 대신 내부 상태를 추적하고 업데이트하도록 만드는 새로운 벤치마크인 Verbose ListOps (VLO)를 제시합니다. 실험 결과, ListOps 방정식을 거의 완벽하게 풀 수 있는 최첨단 LLM들도 1만 토큰의 VLO에서는 성능이 크게 저하되는 것으로 나타났습니다. VLO의 생성 프레임워크는 어떤 검증 가능한 추론 패턴에도 확장 가능하여, 모델 개발자가 컨텍스트 윈도우를 넘어 새로운 추론 아키텍처를 강력하게 테스트할 수 있는 중요한 도구가 될 것이라고 주장합니다. 이는 세계의 지식 작업을 자동화하는 데 필요한 단계라고 강조합니다.