Sign In

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

Created by
  • Haebom
Category
Empty

저자

Andrew M. Bean, Nabeel Seedat, Shengzhuang Chen, Jonathan Richard Schwarz

개요

대규모 언어 모델(LLM) 평가의 높은 비용 문제를 해결하기 위해, 예측 정확도를 유지하면서 효율적인 평가를 가능하게 하는 작고 대표적인 데이터 하위 집합(tiny benchmark)을 만드는 연구. 기존 방법론은 모델 중심 접근 방식을 사용했지만, 본 연구는 과제 항목 자체의 내재적 특성에 기반한 항목 중심 접근 방식인 Scales++를 제안한다. Scales++는 벤치마크 샘플의 인지적 요구 사항을 기반으로 데이터를 선택하여, 초기 선택 비용을 18배 이상 줄이면서 경쟁력 있는 예측 정확도를 달성한다. Open LLM Leaderboard에서 0.5% 데이터 하위 집합만 사용하여 전체 벤치마크 점수를 2.9% 평균 절대 오차로 예측했다.

시사점, 한계점

시사점:
항목 중심 접근 방식을 통해 효율적인 모델 평가 가능.
초기 선택 비용 절감 (18배 이상).
경쟁력 있는 예측 정확도 유지.
더 나은 cold-start 성능 제공.
더 해석 가능한 벤치마킹 가능.
한계점:
논문 내에서 한계점에 대한 직접적인 언급은 없음.
👍