본 논문은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이는 대규모 언어 모델(LLM)의 성능과 비용 간의 상충 관계를 해결하기 위해 IRT-Router라는 다중 LLM 라우팅 프레임워크를 제안합니다. IRT(항목 반응 이론)에 기반하여 LLM의 능력과 사용자 질의 속성 간의 관계를 명시적으로 모델링함으로써 응답 성능을 정확하게 예측하고 LLM의 능력과 질의의 난이도와 같은 해석 가능한 통찰력을 제공합니다. 또한, 의미적 유사성에 기반한 온라인 질의 워밍업 기법을 설계하여 IRT-Router의 온라인 일반화 능력을 향상시켰습니다. 20개의 LLM과 12개의 데이터셋에 대한 광범위한 실험을 통해 IRT-Router가 효율성과 해석 가능성 측면에서 대부분의 기준 방법보다 우수한 성능을 보임을 입증하였고, 특히 콜드 스타트 시나리오에서 우수한 성능을 통해 실제 응용 프로그램에서의 신뢰성과 실용성을 확인했습니다. 소스 코드는 GitHub에서 공개됩니다.