Sign In

The AI Consumer Index (ACE)

Created by
  • Haebom
Category
Empty

저자

Julien Benchek, Rohit Shetty, Benjamin Hunsberger, Ajay Arun, Zach Richards, Brendan Foody, Osvald Nitski, Bertie Vidgen

개요

본 논문은 최첨단 AI 모델이 고부가가치 소비자 작업을 수행할 수 있는지 평가하는 벤치마크인 AI Consumer Index (ACE)의 첫 번째 버전을 소개합니다. ACE는 쇼핑, 음식, 게임, DIY의 네 가지 소비자 활동에 걸쳐 400개의 숨겨진 테스트 케이스로 구성됩니다. 80개의 케이스를 CC-BY 라이선스로 devset으로 공개합니다. ACE 리더보드에서 10개의 최첨단 모델을 평가했으며, 웹 검색을 활성화하고, 검색된 웹 소스에 응답의 관련 부분이 근거하는지 동적으로 확인하는 새로운 채점 방법론을 사용했습니다. GPT 5 (Thinking = High)가 56.1%로 최고 성능을 보였고, o3 Pro (Thinking = On) (55.2%)와 GPT 5.1 (Thinking = High) (55.1%)가 그 뒤를 이었습니다. 모델은 도메인별로 다르며, 쇼핑에서 최고 모델의 점수는 50% 미만입니다. 정확한 가격을 제시하거나 작동하는 링크를 제공하는 것과 같은 일부 요청에 대해 모델은 환각에 매우 취약합니다. 전반적으로 ACE는 최고의 모델조차도 소비자의 AI 요구 사항과 상당한 격차를 보임을 보여줍니다.

시사점, 한계점

시사점:
최첨단 AI 모델의 소비자 작업 수행 능력에 대한 객관적인 벤치마크 제공.
쇼핑 도메인에서 모델 성능이 특히 낮음.
정확한 정보 제공, 특히 가격 및 링크 관련해서 모델이 환각에 취약함.
최고 모델과 소비자 요구 간의 상당한 격차를 확인.
한계점:
4개의 소비자 활동에 국한된 테스트 케이스.
80개의 devset 공개 외에 추가적인 데이터셋 부재.
모델 성능 평가 시 웹 검색 의존성.
👍