BigO(Bench)는 생성형 언어 모델의 시간 및 공간 복잡도를 고려한 코드 이해 및 생성 능력을 평가하기 위해 고안된 새로운 코딩 벤치마크입니다. 기존 평가에서 종종 간과되었던 계산 복잡도 제약 조건 하에서의 코드 이해 및 생성 능력을 평가하는 데 중점을 둡니다. Python 함수의 알고리즘 복잡도를 프로파일링 측정값으로부터 추론하는 도구를 포함하며, 3,105개의 코딩 문제와 1,190,250개의 솔루션(코드 콘테스트에서 수집, 시간 및 공간 복잡도 레이블이 부여됨) 및 다양한 입력 크기에 대한 실행 시간 및 메모리 사용량 값으로 구성됩니다. 여러 최첨단 언어 모델을 이 벤치마크로 평가한 결과를 제시하여 복잡도 요구 사항 처리 능력의 강점과 약점을 강조합니다. 특히, 토큰 공간 추론 모델은 코드 생성에서는 탁월하지만 복잡도 이해에는 그렇지 못하며, 훈련 시 보상을 받지 못한 작업에는 일반화가 잘 되지 않을 수 있음을 시사합니다.