AutoEval은 명확한 정답 개념을 가진 공식적인 작업(번역의 진실 유지 및 논리적 추론 등)에서 대규모 언어 모델(LLM) 평가를 확장하기 위한 새로운 벤치마크입니다. AutoEval은 인간의 라벨링 없이 LLM의 객관적인 평가를 확장하는 데 필요한 몇 가지 주요 장점을 제공하는 최초의 벤치마킹 패러다임입니다. 구체적으로, (a) 다양한 난이도의 작업을 자동 생성하여 점점 더 정교해지는 LLM을 평가할 수 있는 기능, (b) 값비싸고 시간이 많이 걸리는 인간 주석에 대한 의존성을 제거하는 정답의 자동 생성, (c) 많은 현대 벤치마크에서 사용되는 정적 데이터셋에 대한 과적합 가능성을 완화하는 자동 생성된 무작위 데이터셋의 사용 등을 제공합니다. 실증 분석 결과, AutoEval에서 LLM의 성능은 번역 및 추론 작업에 중점을 둔 다양한 다른 벤치마크에서의 성능을 잘 나타내므로, 손으로 엄선된 데이터셋을 얻거나 업데이트하기 어려운 환경에서 귀중한 자율 평가 패러다임이 됩니다.