본 논문은 LLM 기반 챗봇의 빠른 발전에 따라, 인간과 LLM이 함께 달성할 수 있는 것을 평가해야 할 필요성을 강조합니다. 기존 벤치마크(MMLU)는 LLM의 능력을 개별적으로 측정하지만, 본 연구는 사용자와 LLM 간의 대화를 통해 질문에 답하는 방식으로 MMLU 질문을 변환하는 사용자 연구를 설계하고 수행합니다. 396개 질문과 두 개의 LLM에 대한 AI 단독, 사용자 단독, 사용자-AI 데이터를 포함하는 새로운 데이터셋 ChatBench를 공개하며, 144,000개의 답변과 7,336개의 사용자-AI 대화를 포함합니다. AI 단독 정확도가 사용자-AI 정확도를 예측하지 못하며, 여러 과목(수학, 물리학, 도덕적 추론)에서 상당한 차이가 있음을 발견하고, 사용자-AI 대화를 분석하여 AI 단독 벤치마크와의 차이점에 대한 통찰력을 제공합니다. 마지막으로, ChatBench의 일부분에서 사용자 시뮬레이터를 미세 조정하면 사용자-AI 정확도를 추정하는 능력이 향상되어, 보류된 질문에 대한 상관 관계가 20% 이상 증가하며, 대화형 평가의 확장 가능성을 제시합니다.