Sign In

Guarded Query Routing for Large Language Models

Created by
  • Haebom
Category
Empty

저자

Richard \v{S}leher, William Brach, Tibor Sloboda, Kristian Ko\v{s}\v{t}al, Lukas Galke

개요

본 논문은 사용자 쿼리를 다양한 대규모 언어 모델 (LLM) 엔드포인트로 라우팅하는 문제인 쿼리 라우팅을 텍스트 분류 문제로 간주하고, out-of-distribution 쿼리를 적절히 처리하는 guarded query routing 문제를 연구합니다. 이를 위해, 세 가지 도메인 (법률, 금융, 의료)을 포괄하는 Guarded Query Routing Benchmark (GQR-Bench)를 소개하고, 이를 사용하여 LLM 기반 라우팅 메커니즘 (GPT-4o-mini, Llama-3.2-3B, Llama-3.1-8B), 표준 LLM 기반 guardrail 접근 방식 (LlamaGuard 및 NVIDIA NeMo Guardrails), continuous bag-of-words 분류기 (WideMLP, fastText), 전통적인 머신 러닝 모델 (SVM, XGBoost)의 효과와 효율성을 비교합니다. 연구 결과, out-of-domain 감지 기능을 강화한 WideMLP가 정확도 (88%)와 속도 (<4ms) 측면에서 가장 좋은 균형을 보였으며, embedding 기반 fastText는 속도 (<1ms)에서 뛰어났습니다. 반면, LLM은 가장 높은 정확도 (91%)를 보였지만, 속도가 상대적으로 느렸습니다.

시사점, 한계점

시사점:
LLM에 대한 자동 의존 대신, guarded query routing에 WideMLP와 같은 모델을 활용하는 것이 실용적인 애플리케이션에 더 적합할 수 있음을 제시합니다.
GQR-Bench를 통해 다양한 모델의 성능을 평가하고, 최적의 성능을 위한 모델 선택에 대한 가이드라인을 제공합니다.
빠른 속도가 중요한 경우 fastText의 활용을 제안합니다.
한계점:
연구는 특정 LLM과 모델에 국한되어 있으며, 다른 모델에 대한 일반화 가능성은 추가 연구가 필요합니다.
성능 평가가 GQR-Bench에만 기반하고 있으므로, 다른 벤치마크나 실제 환경에서의 성능 검증이 추가적으로 요구됩니다.
out-of-domain detection을 위한 구체적인 방법론에 대한 자세한 설명이 부족합니다.
👍