본 논문은 생성형 AI의 실제 활용도를 평가하는 새로운 벤치마크의 필요성을 강조합니다. 기존 벤치마크들이 일반적인 지능에 초점을 맞춘 것과 달리, 본 논문은 요약, 기술 지원, 작업 검토, 데이터 구조화, 생성, 정보 검색 등 실제 사용자들이 대규모 언어 모델(LLM)을 사용하는 여섯 가지 핵심 기능에 초점을 맞춰 평가합니다. 대규모 설문 조사 데이터와 사용 로그를 분석하여 기존 벤치마크의 한계를 지적하고, 일관성, 정확성, 명확성, 관련성, 효율성이라는 다섯 가지 실용적인 기준을 바탕으로 인간 중심적인 벤치마크 기준을 제시합니다. 여섯 가지 기능 중 네 가지에 대해 실제 작업과 가장 잘 맞는 벤치마크를 식별하고, Google Gemini, OpenAI의 GPT, xAI의 Grok, Meta의 LLaMA, Anthropic의 Claude, DeepSeek, Alibaba의 Qwen 등 주요 모델들을 비교 분석합니다.