본 논문은 대규모 언어 모델(LLM)의 성능 평가 비용을 줄이기 위한 효율적인 방법을 제안합니다. 기존의 LLM 성능 평가는 많은 테스트 인스턴스와 느린 추론 속도로 인해 비용이 많이 들지만, 본 논문에서는 벤치마크의 일부 인스턴스만을 사용하여 모델의 실제 성능을 정확하게 추정하는 방법을 제시합니다. 추천 시스템의 협업 필터링(CF)에서 영감을 얻어, LLM을 사용자로, 테스트 인스턴스를 아이템으로 취급하는 2단계 방식을 제안합니다. 1단계에서는 모델 성능을 쉽게 구분할 수 있는 인스턴스를 선택하고, 2단계에서는 추천 시스템의 평점 예측 문제로 보고 선택되지 않은 인스턴스에 대한 LLM의 성능을 예측합니다. 다양한 LLM과 데이터셋에 대한 실험을 통해 제안된 방법이 추론 오버헤드를 크게 줄이면서도 목표 모델의 성능을 정확하게 추정할 수 있음을 보여줍니다.