본 논문은 인공지능 측정에 대한 형식 이론 프로그램을 제시한다. 인공지능 측정의 형식화를 통해 연구자, 실무자, 규제 당국이 시스템과 평가 방법 간의 비교, 최첨단 AI 평가와 기존의 공학 및 안전 과학 분야의 정량적 위험 분석 기법 연결, AI 역량의 정의가 측정 작업과 척도에 따라 달라짐을 명확히 하는 것을 가능하게 할 것이라고 주장한다. 계층화된 측정 스택을 개략적으로 설명하고, 직접 관측 가능한 것과 간접 관측 가능한 것을 구분하며, 이러한 요소들이 통합되고 보정 가능한 AI 현상 분류 체계를 향한 경로를 제시한다.