본 논문은 사용자 쿼리를 다양한 대규모 언어 모델 (LLM) 엔드포인트로 라우팅하는 문제인 쿼리 라우팅을 텍스트 분류 문제로 간주하고, out-of-distribution 쿼리를 적절히 처리하는 guarded query routing 문제를 연구합니다. 이를 위해, 세 가지 도메인 (법률, 금융, 의료)을 포괄하는 Guarded Query Routing Benchmark (GQR-Bench)를 소개하고, 이를 사용하여 LLM 기반 라우팅 메커니즘 (GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B), 표준 LLM 기반 guardrail 접근 방식 (LlamaGuard 및 NVIDIA NeMo Guardrails), continuous bag-of-words 분류기 (WideMLP, fastText), 전통적인 머신 러닝 모델 (SVM, XGBoost)의 효과와 효율성을 비교합니다. 연구 결과, out-of-domain 감지 기능을 강화한 WideMLP가 정확도 (88%)와 속도 (<4ms) 측면에서 가장 좋은 균형을 보였으며, embedding 기반 fastText는 속도 (<1ms)에서 뛰어났습니다. 반면, LLM은 가장 높은 정확도 (91%)를 보였지만, 속도가 상대적으로 느렸습니다.