# BenchBrowser: Retrieving Evidence for Evaluating Benchmark Validity

### 저자

Harshita Diddee, Gregory Yauney, Swabha Swayamdipta, Daphne Ippolito

### 💡 개요

본 논문은 언어 모델 벤치마크가 의도한 바를 제대로 측정하는지에 대한 문제를 제기하며, 벤치마크의 세부적인 내용을 파악하기 어렵다는 점을 지적합니다. 이를 해결하기 위해 BenchBrowser라는 검색기를 제안하며, 이를 통해 20개 이상의 벤치마크 스위트에서 자연어 사용 사례와 관련된 평가 항목을 검색하여 벤치마크의 내용 타당도와 수렴 타당도를 진단할 수 있는 근거를 제공합니다.

### 🔑 시사점 및 한계

- 언어 모델 벤치마크의 실제 측정 내용과 실무자의 의도 사이의 간극을 정량적으로 파악하는 데 기여합니다.

- 벤치마크의 내용 타당도(능력의 다양한 측면을 얼마나 포괄적으로 다루는지)와 수렴 타당도(동일한 능력을 측정할 때 일관된 순위를 나타내는지)를 진단하는 데 도움을 줍니다.

- 인간 연구를 통해 높은 검색 정확도를 확인했지만, 검색된 결과의 해석 및 추가적인 분석에 대한 인간의 노력이 여전히 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.18019)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).