Sign In

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Created by
  • Haebom
Category
Empty

저자

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans

개요

본 논문은 대규모 언어 모델(LLM) 벤치마크 및 의미 있는 중첩을 특징짓기 위해 역량 친숙도의 특징을 개발합니다. 벤치마크 시그니처는 벤치마크 성능에 필요한 역량을 탐구합니다. 저자는 이를 LLM 토큰의 혼란도가 LLM 벤치마크 성능을 예측하는, 자연적으로 작성된 말뭉치에서 추출한 중요한 토큰 집합으로 공식적으로 정의합니다. 대규모 메타 평가를 통해 32개의 LLM과 다양한 지식, 코딩, 논리, 지침 따르기, 수학, 언어, 추론 및 세계 모델링을 포함하는 88개의 벤치마크를 대상으로 선형 회귀를 사용한 단계별 전방 선택을 통해 벤치마크 시그니처를 추출합니다.

시사점, 한계점

벤치마크 시그니처는 성능의 변화, 중첩 및 발산을 포착하는 데 매우 유용합니다.
지식과 추론 하위 작업에서 중첩이 관찰되는 반면, 다국어 및 문화적 벤치마크는 작업 간 중첩과 비교해서도 유사성이 적습니다.
질문 형식과 같은 벤치마크 직교 요인이 성능 수준 결과에 강하게 영향을 미치며, 이는 LLM 일반화의 한계, 성능과 능력의 혼동, 그리고 현재 주류 벤치마크 일치 연구의 문제점을 강조합니다.
벤치마크 시그니처는 이러한 영향에 강건합니다.
논리, 수학, 언어, 지침 따르기, 세계 모델링 간의 상호 기능적 중첩이 확인되었으며, 코딩은 가장 중첩이 적은 도메인으로 나타났습니다.
이 연구 결과는 벤치마크 타당성 및 LLM 민감성에 대한 기계적 통찰력을 제공하고, 상호 연결된 LLM 능력의 근본적인 풍경을 제시합니다.
👍