본 논문은 사용자 질의를 다양한 대규모 언어 모델(LLM) 엔드포인트로 라우팅하는 작업인 질의 라우팅을 텍스트 분류 문제로 다루며, 특히 분포 외 질의(out-of-distribution queries) 처리에 초점을 맞춥니다. 세 가지 목표 도메인(법률, 금융, 의료)과 분포 외 질의에 대한 강건성을 테스트하기 위한 7개의 데이터셋으로 구성된 경계 질의 라우팅 벤치마크(GQR-Bench)를 제시합니다. GQR-Bench를 사용하여 LLM 기반 라우팅 메커니즘(GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B), 표준 LLM 기반 안전장치 접근 방식(LlamaGuard, NVIDIA NeMo Guardrails), 연속 단어 가방 분류기(WideMLP, fastText), 그리고 전통적인 기계 학습 모델(SVM, XGBoost)의 효과성과 효율성을 비교 분석합니다. 분포 외 도메인 감지 기능이 향상된 WideMLP가 정확도(88%)와 속도(<4ms) 면에서 최상의 절충안을 제공하는 것으로 나타났습니다. 임베딩 기반 fastText는 허용 가능한 정확도(80%)로 매우 빠른 속도(<1ms)를 보였으며, LLM은 가장 높은 정확도(91%)를 달성했지만 상대적으로 느렸습니다(로컬 Llama-3.1:8B의 경우 62ms, 원격 GPT-4o-mini 호출의 경우 669ms). 결과적으로 (경계된) 질의 라우팅을 위한 LLM의 자동 의존성에 대한 문제점을 제기하고 실제 응용 프로그램에 대한 구체적인 권장 사항을 제공합니다. GQR-Bench는 Python 패키지(gqr)로 공개될 예정입니다.