본 논문은 다양한 언어 모델들 중 질의에 가장 적합한 모델을 선택하는 LLM 라우팅 문제를 다룬다. 기존의 접근 방식은 정확도와 비용과 같은 경쟁적인 성능 지표를 먼저 예측하고 그 예측에 기반하여 모델을 선택하는 분리된 전략을 채택하여 오류 누적 및 전체 피드백 데이터 의존(모든 후보 모델에 대한 각 질의 평가 필요)이라는 한계점을 가진다. 본 논문에서는 실제 배포된 모델의 결과만 기록하는 관측 데이터를 활용하여 의사결정 후회를 최소화하는 인과적 엔드투엔드 프레임워크를 제안한다. 효율적인 최적화를 위해 분류 기반 상한선과 소프트맥스 가중치 후회 근사치라는 두 가지 이론적으로 근거한 대리 목적 함수를 도입하며, 최적 정책을 회복함을 보인다. 구간 조건 아키텍처를 통해 이종 비용 기호를 처리하도록 프레임워크를 확장하며, 공개 벤치마크 실험에서 기존 기준보다 우수한 성능을 달성한다.