AutoEval은 정확성 개념이 명확한 공식적인 작업(번역에서의 진실 유지 및 논리적 추론 등)에서 대규모 언어 모델(LLM) 평가를 확장하기 위한 새로운 벤치마킹 기준입니다. AutoEval은 사람의 라벨링 없이 객관적인 LLM 평가를 확장하는 데 필요한 몇 가지 주요 장점을 제공하는 최초의 벤치마킹 패러다임입니다. 이는 (a) 다양한 난이도의 작업을 자동 생성하여 점점 더 정교해지는 LLM을 평가할 수 있는 능력, (b) 값비싸고 시간이 많이 걸리는 사람의 주석에 대한 의존성을 없애는 지상 진실의 자동 생성, (c) 많은 현대 벤치마킹에서 사용되는 정적 데이터셋에 대한 후속 LLM의 과적합 능력을 완화하는 자동 생성된 무작위 데이터셋의 사용을 포함합니다. 실증 분석에 따르면 AutoEval에서 LLM의 성능은 번역 및 추론 작업에 중점을 둔 다양한 다른 벤치마크에서의 성능을 매우 잘 나타내므로 수동으로 큐레이션된 데이터셋을 얻거나 업데이트하기 어려운 환경에서 귀중한 자율 평가 패러다임이 됩니다.