본 논문은 최첨단 AI 모델이 고부가가치 소비자 작업을 수행할 수 있는지 평가하는 벤치마크인 AI Consumer Index (ACE)의 첫 번째 버전을 소개합니다. ACE는 쇼핑, 음식, 게임, DIY의 네 가지 소비자 활동에 걸쳐 400개의 숨겨진 테스트 케이스로 구성됩니다. 80개의 케이스를 CC-BY 라이선스로 devset으로 공개합니다. ACE 리더보드에서 10개의 최첨단 모델을 평가했으며, 웹 검색을 활성화하고, 검색된 웹 소스에 응답의 관련 부분이 근거하는지 동적으로 확인하는 새로운 채점 방법론을 사용했습니다. GPT 5 (Thinking = High)가 56.1%로 최고 성능을 보였고, o3 Pro (Thinking = On) (55.2%)와 GPT 5.1 (Thinking = High) (55.1%)가 그 뒤를 이었습니다. 모델은 도메인별로 다르며, 쇼핑에서 최고 모델의 점수는 50% 미만입니다. 정확한 가격을 제시하거나 작동하는 링크를 제공하는 것과 같은 일부 요청에 대해 모델은 환각에 매우 취약합니다. 전반적으로 ACE는 최고의 모델조차도 소비자의 AI 요구 사항과 상당한 격차를 보임을 보여줍니다.