AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment
Created by
Haebom
Category
Empty
저자
Dario Loi, Elena Maria Muia, Federico Siciliano, Giovanni Trappolini, Vincenzo Crisa, Peter Kruger, Fabrizio Silvestri
개요
AutoBench는 상호 피어 평가를 통해 대규모 언어 모델(LLM)을 평가하기 위한 완전히 자동화되고 자급 자족하는 프레임워크입니다. 이 방법론은 eZecute S.R.L.에서 오픈 소스 프로젝트로 개발되었으며, 테스트 세트 오염 및 제한된 적응성으로 어려움을 겪는 정적 벤치마크와 달리 AutoBench는 모델이 질문 생성기, 경쟁자 및 심사위원 역할을 번갈아 수행하면서 다양한 도메인에서 새로운 평가 작업을 동적으로 생성합니다. 반복적인 가중치 메커니즘은 일관되게 신뢰할 수 있는 평가자의 영향력을 증폭시켜 동료 판단을 집단 모델 합의를 반영하는 합의 기반 순위로 집계합니다. 실험 결과 MMLU-Pro 및 GPQA를 포함한 기존 벤치마크와 강력한 상관 관계(각각 78% 및 63%)를 보여주며, 이 피어 기반 평가 패러다임을 검증합니다. 다중 심사위원 설계는 단일 심사위원 기준선을 크게 능가하며 분산 평가가 더 강력하고 인간과 일치하는 평가를 생성한다는 것을 확인합니다. AutoBench는 진화하는 언어 모델의 지속적인 평가를 위한 정적 벤치마크에 대한 확장 가능하고 오염 방지 대안을 제공합니다.