Bertie Vidgen, Abby Fennelly, Evan Pinnix, Chirag Mahapatra, Zach Richards, Austin Bridges, Calix Huang, Ben Hunsberger, Fez Zafar, Brendan Foody, Dominic Barton, Cass R. Sunstein, Eric Topol, Osvald Nitski
AI 생산성 지수(APEX) 소개
AI 모델이 경제적 가치가 높은 지식 작업을 고도로 수행할 수 있는지 평가하기 위한 벤치마크인 AI 생산성 지수(APEX)의 첫 번째 버전을 소개합니다. APEX는 코딩 외에 경제적으로 관련된 능력을 테스트하는 데 실패하는 벤치마크로 인한 AI 연구의 가장 큰 비효율성 중 하나를 해결합니다. APEX-v1.0은 200개의 테스트 케이스를 포함하며, 투자 은행, 경영 컨설팅, 법률 및 1차 의료 등 4가지 도메인을 다룹니다. APEX는 세 단계로 구축되었습니다. 첫째, Goldman Sachs의 투자 은행가와 같은 최고 수준의 경험을 가진 전문가를 확보했습니다. 둘째, 전문가는 일상 업무에서 가치가 높은 작업을 반영하는 프롬프트를 생성했습니다. 셋째, 전문가는 모델 응답을 평가하기 위한 채점 기준을 만들었습니다. LM 심사관을 사용하여 APEX-v1.0에서 23개의 최첨단 모델을 평가했습니다. GPT 5(사고 = 높음)가 가장 높은 평균 점수(64.2%)를 기록했으며, Grok 4(61.3%)와 Gemini 2.5 Flash(사고 = 켜짐)(60.4%)가 그 뒤를 이었습니다. Qwen 3 235B는 성능이 가장 우수한 오픈 소스 모델이며 전체 7위입니다. 최고의 모델조차 인간 전문가의 성능과는 큰 격차를 보여, 경제적으로 가치 있는 작업을 생성하는 모델의 능력을 더 잘 측정해야 할 필요성을 강조합니다.
시사점, 한계점
•
경제적 가치가 높은 지식 작업 수행 능력을 평가하는 벤치마크 개발
•
GPT 5가 가장 높은 성능을 기록했으며, 그 뒤를 Grok 4와 Gemini 2.5 Flash가 따름