대규모 언어 모델(LLM) 평가의 높은 비용 문제를 해결하기 위해, 예측 정확도를 유지하면서 효율적인 평가를 가능하게 하는 작고 대표적인 데이터 하위 집합(tiny benchmark)을 만드는 연구. 기존 방법론은 모델 중심 접근 방식을 사용했지만, 본 연구는 과제 항목 자체의 내재적 특성에 기반한 항목 중심 접근 방식인 Scales++를 제안한다. Scales++는 벤치마크 샘플의 인지적 요구 사항을 기반으로 데이터를 선택하여, 초기 선택 비용을 18배 이상 줄이면서 경쟁력 있는 예측 정확도를 달성한다. Open LLM Leaderboard에서 0.5% 데이터 하위 집합만 사용하여 전체 벤치마크 점수를 2.9% 평균 절대 오차로 예측했다.