본 논문은 대규모 언어 모델(LLM) 기반 챗봇의 빠른 확산에 따라 인간과 LLM이 함께 달성할 수 있는 것을 평가할 필요성이 증대됨에 따라, 기존의 MMLU와 같은 벤치마크가 LLM의 능력을 개별적으로만 측정한다는 점을 지적합니다. 이에 연구진은 MMLU 질문을 사용자-AI 대화로 변환하는 사용자 연구를 설계하고 수행하여, 사용자에게 질문을 제시하고 LLM과의 대화를 통해 질문에 답하도록 하는 방식을 채택했습니다. 396개의 질문과 두 개의 LLM에 대한 AI 단독, 사용자 단독, 사용자-AI 데이터를 포함하는 새로운 데이터셋인 ChatBench를 공개했으며, 144,000개의 답변과 7,336개의 사용자-AI 대화를 포함합니다. 연구 결과, AI 단독 정확도가 사용자-AI 정확도를 예측하지 못하며, 수학, 물리학, 도덕적 추론 등 여러 과목에서 상당한 차이가 있음을 발견하고, 사용자-AI 대화를 분석하여 AI 단독 벤치마크와 어떻게 다른지에 대한 통찰력을 제공합니다. 마지막으로, ChatBench의 일부 데이터셋으로 사용자 시뮬레이터를 미세 조정하면 사용자-AI 정확도를 추정하는 능력이 향상되어, 보류 질문에 대한 상관관계가 20% 이상 증가하며, 대화형 평가의 확장 가능성을 제시합니다.