BigO(Bench)는 생성형 언어 모델의 시간 및 공간 복잡도를 고려한 코드 이해 및 생성 능력을 평가하기 위한 새로운 코딩 벤치마크입니다. 기존 평가에서 종종 간과되었던 계산 복잡도 제약 하의 코드 이해 및 생성 능력을 평가하는 데 초점을 맞춥니다. 3,105개의 코딩 문제와 1,190,250개의 솔루션(Code Contests 출처)으로 구성되며, 각 솔루션에는 추론된 시간 및 공간 복잡도 레이블과 다양한 입력 크기에 대한 실행 시간 및 메모리 사용량 값이 포함되어 있습니다. Python 함수의 알고리즘 복잡도를 프로파일링 측정값으로부터 추론하는 도구도 제공합니다. 여러 최첨단 언어 모델을 이 벤치마크로 평가한 결과를 제시하며, 복잡도 요구 사항 처리에 대한 강점과 약점을 강조합니다. 특히 토큰 공간 추론 모델은 코드 생성에는 탁월하지만 복잡도 이해에는 그렇지 않다는 점을 보여주며, 훈련 시 보상을 받지 않은 작업에는 일반화가 잘 되지 않을 수 있음을 시사합니다.