본 논문은 사용자 질의를 다양한 대규모 언어 모델(LLM) 엔드포인트로 라우팅하는 문제인 질의 라우팅을 텍스트 분류 문제로 다루며, 특히 분포 외 질의(out-of-distribution queries) 처리에 중점을 둔 연구입니다. 세 가지 표본 대상 도메인(법률, 금융, 의료)과 분포 외 질의에 대한 강건성을 테스트하기 위한 7개의 데이터셋으로 구성된 Guarded Query Routing Benchmark (GQR-Bench)를 제시합니다. GQR-Bench를 사용하여 LLM 기반 라우팅 메커니즘(GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B), 표준 LLM 기반 안전장치 접근 방식(LlamaGuard, NVIDIA NeMo Guardrails), 연속적인 단어 가방 분류기(WideMLP, fastText), 그리고 전통적인 기계 학습 모델(SVM, XGBoost)의 효과성과 효율성을 비교 분석합니다. 분포 외 도메인 감지 기능이 향상된 WideMLP가 정확도(88%)와 속도(<4ms) 측면에서 최상의 절충안을 제공하는 것으로 나타났습니다. 임베딩 기반 fastText는 속도(<1ms)가 뛰어나지만 정확도(80%)는 다소 낮았고, LLM은 가장 높은 정확도(91%)를 보였지만 속도가 상대적으로 느렸습니다(로컬 Llama-3.1:8B는 62ms, 원격 GPT-4o-mini 호출은 669ms). 이러한 결과는 (보호된) 질의 라우팅에 대한 LLM의 자동 의존성에 의문을 제기하고 실제 응용 프로그램에 대한 구체적인 권장 사항을 제공합니다. GQR-Bench는 Python 패키지인 gqr로 공개될 예정입니다.