# Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs

### 저자

Ganghua Wang, Zhaorun Chen, Bo Li, Haifeng Xu

### 개요

본 논문은 점점 커지는 초거대 언어 모델(LLM)의 효율적인 평가를 위한 새로운 프레임워크, Cer-Eval을 제시합니다. 기존의 LLM 평가는 점점 커지는 데이터셋을 필요로 하지만, 테스트 데이터의 충분성 및 정보성 있는 샘플 선택에 대한 체계적인 분석이 부족합니다.  Cer-Eval은 다양한 평가 목표에 적응하며, 높은 확률로 참값을 포함하는 신뢰 구간을 제공하는 인증 가능하고 비용 효율적인 프레임워크입니다.  '테스트 샘플 복잡도'를 정의하여 필요한 테스트 데이터 수를 정량화하고, 이를 바탕으로 테스트 포인트를 적응적으로 선택하여 평가 비용을 최소화하는 분할 기반 알고리즘을 개발했습니다. 실험 결과, Cer-Eval은 다양한 벤치마크에서 20%~40%의 테스트 포인트를 절약하면서 기존 평가와 비슷한 오차 수준을 유지하고 95%의 신뢰 수준을 제공하는 것을 보였습니다.

### 시사점, 한계점

- **시사점:**

    - LLM 평가의 비용을 20~40% 절감할 수 있는 효율적인 평가 프레임워크 제시

    - 테스트 데이터의 충분성에 대한 체계적인 분석 및 가이드라인 제공

    - 높은 신뢰 수준(95%)을 보장하는 신뢰 구간 제공

    - 다양한 평가 목표에 적응 가능한 유연성

- **한계점:**

    - 제시된 이론 및 알고리즘의 일반화 가능성에 대한 추가 연구 필요

    - 다양한 LLM 아키텍처 및 크기에 대한 폭넓은 실험 검증 필요

    - Cer-Eval의 성능이 특정 벤치마크나 데이터셋에 의존할 가능성 존재

[PDF 보기](https://arxiv.org/pdf/2505.03814)

![https://i.imgur.com/NRymcgI.jpeg](https://i.imgur.com/NRymcgI.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).