본 논문은 대규모 언어 모델(LLM)과 같은 기초 모델(FM) 기반 소프트웨어의 품질과 추론 비용 간의 균형을 맞추기 위한 실시간 적응형 라우팅(RAR) 기법을 제안합니다. RAR은 다양한 크기와 기능을 가진 FM에 요청을 라우팅하는 모델로, 기존의 라우팅 모델들이 정교하게 관리된 데이터로부터 최적의 라우팅 결정을 학습하고, 복잡한 계산을 통해 업데이트하며, 성능이 약한 FM의 발전 가능성을 고려하지 않는다는 점을 개선합니다. RAR은 지도형 문맥 내 학습을 사용하여 성능이 약한 FM의 기능을 향상시키면서 FM 라우팅 결정을 지속적으로 적응시켜, 강력하고 비용이 많이 드는 FM에 대한 의존도를 줄이는 것을 목표로 합니다. MMLU 벤치마크의 여러 하위 집합을 사용한 평가 결과, RAR은 계산 비용이 많이 드는 모델에 대한 요청을 50.2% 줄이면서 전반적인 응답 품질의 약 90.5%를 유지하는 것으로 나타났습니다. 또한, 강력한 모델에서 생성된 가이드는 도메인 내 일반화를 보여주었고, 독립형 약한 FM을 사용하는 동등한 방법에 비해 더 나은 응답 품질을 제공했습니다.