본 논문은 AI 벤치마크의 한계를 해결하기 위해, 모델의 능력과 벤치마크의 난이도를 단일 척도로 연결하는 통계적 프레임워크를 개발합니다. 이 프레임워크는 서로 다른 벤치마크에서 평가된 모델을 비교할 수 있게 해주는 "로제타 스톤" 역할을 하며, 시간이나 계산량에 따른 능력 발전 방식을 가정하지 않고도 작동합니다. 이 프레임워크를 활용하여 AI 발전 속도를 측정하고 미래의 AI 능력을 예측하며, 알고리즘 효율성 개선 속도를 추정하고, AI 발전의 가속화를 감지하는 세 가지 응용 사례를 제시합니다.