본 논문은 대규모 언어 모델(LLM) 기반 시스템의 효율성을 높이기 위한 라우팅 전략에 대한 종합적인 개요를 제공합니다. 기존의 단일 LLM 기반 시스템은 모든 질의에 동일한 자원을 사용하여 비효율적일 수 있으므로, 질의의 특성에 따라 적합한 모델(크기 또는 특수성 측면에서)로 라우팅하는 메커니즘이 필요합니다. 본 논문에서는 비용 최소화 및 성능 극대화를 목표로, LLM 파이프라인에 라우팅을 통합하는 시점(생성 전 또는 후), 유사도 기반, 지도 학습 기반, 강화 학습 기반, 생성적 방법 등 다양한 구현 전략을 검토합니다. 산업적 응용 및 현재의 한계점(라우팅 실험 표준화, 비재정적 비용 고려, 적응형 전략 설계 등)도 함께 논의하며, 라우팅을 성능-비용 최적화 문제로 공식화하여 향후 연구 및 개발을 위한 방향을 제시합니다.