본 논문은 대규모 언어 모델(LLM) 벤치마크 및 의미 있는 중첩을 특징짓기 위해 역량 친숙도의 특징을 개발합니다. 벤치마크 시그니처는 벤치마크 성능에 필요한 역량을 탐구합니다. 저자는 이를 LLM 토큰의 혼란도가 LLM 벤치마크 성능을 예측하는, 자연적으로 작성된 말뭉치에서 추출한 중요한 토큰 집합으로 공식적으로 정의합니다. 대규모 메타 평가를 통해 32개의 LLM과 다양한 지식, 코딩, 논리, 지침 따르기, 수학, 언어, 추론 및 세계 모델링을 포함하는 88개의 벤치마크를 대상으로 선형 회귀를 사용한 단계별 전방 선택을 통해 벤치마크 시그니처를 추출합니다.