본 논문은 라우팅 대규모 언어 모델(Routing LLMs)이라는 새로운 패러다임을 분석합니다. Routing LLMs는 주어진 입력에 대해 후보군 중 최적의 LLM을 추천하는 라우터를 사용합니다. 8,500개 이상의 LLM을 사용한 포괄적인 분석을 통해, 후보 모델 수가 증가함에 따라 유능한 라우터가 Routing LLMs의 성능을 크게 향상시키는 새로운 모델 수준의 확장 현상을 발견했습니다. 이러한 성능 향상은 후보군 중 최고의 단일 모델 및 기존의 많은 강력한 LLM의 성능을 능가할 수 있으며, 이는 매우 유망한 패러다임임을 확인시켜줍니다. 그러나 Routing LLMs에 대한 포괄적이고 오픈소스 벤치마크의 부족으로 라우터 개발이 저해되었습니다. 이 논문에서는 라우터 연구를 위해 고안된 벤치마크인 RouterEval을 소개합니다. RouterEval은 상식 추론, 의미 이해 등 다양한 영역에서 12가지 인기 있는 LLM 평가에 대한 2억 개가 넘는 성능 기록을 포함하며, 8,500개가 넘는 다양한 LLM을 기반으로 합니다. RouterEval을 사용한 기존 Routing LLM 방법에 대한 광범위한 평가 결과, 대부분의 방법이 여전히 상당한 개선 여지가 있음을 보여줍니다. 모든 데이터, 코드 및 자습서는 https://github.com/MilkThink-Lab/RouterEval 에서 확인할 수 있습니다.