본 논문은 대규모 언어 모델(LLMs)의 평가를 위한 종합적인 프레임워크를 제안한다. 기존의 정적인 평가 데이터셋(프롬프트와 정답의 집합)에 의존하는 방식에서 벗어나, 게임 및 도구 기반의 아키텍처를 활용하여 모델의 능력을 더 포괄적으로 측정하는 방법을 제시한다. LLM의 활용 범위가 자연어 처리, 텍스트 생성, 대화형 어시스턴트, 소프트웨어 활용 등 다양하고 기업 내 도입도 증가하고 있음을 고려하여, 공급망 관리나 재무 추론과 같은 특정 사례부터 윤리나 안전과 같은 추상적인 측정까지 다양한 시나리오에 확장 가능한 일반적인 기반을 제공한다.