본 논문은 실세계 응용 프로그램에 대규모 언어 모델(LLM) 기반 시스템을 사용하는 데 대한 관심이 높아짐에 따라, 이러한 시스템의 실제 시나리오에서의 의미 있는 평가가 어려움을 제기한다는 점을 다룬다. 기존 연구에서 자주 사용되는 합성 벤치마크와 사실상의 지표는 실제 문제를 충분히 다루지 못한다는 점을 지적하며, 실제 요구 사항과 사용자의 요구를 충족해야 하는 LLM 기반 시스템의 실제 개발 및 배포와 잘 통합되는 의미 있는 평가 방법론, 의미 있는 평가 지표를 선택하고, 대표적인 데이터 세트를 사전에 큐레이션하는 방법을 설명하는 실용적인 평가 프레임워크를 제시한다.