본 논문은 대규모 언어 모델(LLM)의 수학적 추론 및 알고리즘 코드 생성 능력을 엄격하게 평가하기 위해 설계된 새로운 벤치마크를 제시한다. 이 벤치마크는 정수열 백과사전(OEIS)에서 가져온 정수열 생성 작업을 포함하며, LLM이 룩업 테이블을 사용하지 않고 이러한 수열을 계산하기 위한 Python 코드를 정확하고 효율적으로 생성하는 능력을 테스트한다. OpenAI, Anthropic, Meta, Google의 주요 모델들을 대상으로 '쉬움' 또는 '어려움'으로 분류된 1000개의 OEIS 수열을 사용하여 포괄적인 평가를 수행한다. 모델이 기억된 시퀀스 값을 악용하는 것을 방지하기 위해, 룩업 테이블 사용을 감지하는 자동 치팅 감지 메커니즘을 도입하고, 이는 인간 전문가 평가와 비교하여 검증된다. 실험 결과는 추론에 특화된 모델이 비추론 모델보다 정확도가 크게 향상되었음을 보여주지만, 어려운 수열에 대한 전반적인 모델 성능은 저조하여 알고리즘 추론의 지속적인 과제를 강조한다.