본 논문은 다양한 모달리티에서 복잡한 작업을 수행할 수 있도록 발전하는 언어 모델을 자동으로 평가하는 어려움을 해결하기 위해 Zero-shot Benchmarking (ZSB) 프레임워크를 제시합니다. ZSB는 언어 모델을 활용하여 합성 테스트 데이터 생성 및 평가를 자동화하여 고품질 벤치마크를 생성하는 방법입니다. 데이터 생성 및 평가를 위한 프롬프트만 필요하며, 실제 데이터 수집이 어려운 작업이나 언어에도 확장 가능하고, 모델에 독립적이라는 장점이 있습니다. 본 연구에서는 텍스트 기반 네 가지 언어(영어, 중국어, 프랑스어, 한국어)의 일반적인 능력, 번역, 그리고 영어 기반의 시각-언어 능력 등 다양한 작업에 대한 벤치마크를 ZSB를 통해 생성하고, 다양한 시스템을 평가하여 기존 벤치마크보다 인간 평가와의 상관관계가 높음을 보였습니다. 또한, 오픈 모델을 이용하여 강력한 벤치마크를 생성할 수 있으며, 평가 모델의 크기와 데이터셋의 다양성이 성능에 중요한 영향을 미친다는 것을 실험적으로 확인했습니다. 모든 벤치마크와 코드를 공개하여 재현 및 새로운 벤치마크 생성을 지원합니다.