GPT-4, Claude 3, Gemini 등 대형 언어 모델의 발전에도 불구하고, 기존 벤치마크가 정확도와 출력 품질에만 집중하여 토큰 효율성을 간과하는 문제를 지적하며, OckBench를 제안합니다. OckBench는 추론 및 코딩 작업에 대한 정확도와 토큰 수를 모두 평가하는 모델 및 하드웨어 독립적인 벤치마크입니다. 다양한 모델을 비교 실험한 결과, 정확도는 유사하지만 토큰 소비량에서 큰 차이를 보이며, 이는 효율성 차이가 중요한 변수임을 나타냅니다. 정확도-효율성 평면에서 파레토 프론티어를 제시하며, 토큰을 "무료"로 취급하는 평가 방식의 변화를 주장합니다. OckBench는 토큰 효율적인 추론 연구를 위한 측정, 비교, 가이드 역할을 합니다.