Sign In

AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment

Created by
  • Haebom
Category
Empty

저자

Dario Loi, Elena Maria Muia, Federico Siciliano, Giovanni Trappolini, Vincenzo Crisa, Peter Kruger, Fabrizio Silvestri

개요

AutoBench는 상호 피어 평가를 통해 대규모 언어 모델(LLM)을 평가하기 위한 완전히 자동화되고 자급 자족하는 프레임워크입니다. 이 방법론은 eZecute S.R.L.에서 오픈 소스 프로젝트로 개발되었으며, 테스트 세트 오염 및 제한된 적응성으로 어려움을 겪는 정적 벤치마크와 달리 AutoBench는 모델이 질문 생성기, 경쟁자 및 심사위원 역할을 번갈아 수행하면서 다양한 도메인에서 새로운 평가 작업을 동적으로 생성합니다. 반복적인 가중치 메커니즘은 일관되게 신뢰할 수 있는 평가자의 영향력을 증폭시켜 동료 판단을 집단 모델 합의를 반영하는 합의 기반 순위로 집계합니다. 실험 결과 MMLU-Pro 및 GPQA를 포함한 기존 벤치마크와 강력한 상관 관계(각각 78% 및 63%)를 보여주며, 이 피어 기반 평가 패러다임을 검증합니다. 다중 심사위원 설계는 단일 심사위원 기준선을 크게 능가하며 분산 평가가 더 강력하고 인간과 일치하는 평가를 생성한다는 것을 확인합니다. AutoBench는 진화하는 언어 모델의 지속적인 평가를 위한 정적 벤치마크에 대한 확장 가능하고 오염 방지 대안을 제공합니다.

시사점, 한계점

시사점:
동적 작업 생성 및 피어 평가를 통한 LLM 평가의 새로운 접근 방식 제시
기존 벤치마크와의 높은 상관관계 입증
다중 심사위원 설계를 통한 더 강력하고 인간과 일치하는 평가
확장 가능하고 오염 방지 기능을 제공하여 지속적인 LLM 평가에 적합
한계점:
제시된 한계점은 논문에 명시되지 않음
👍