본 논문은 다양한 대규모 언어 모델(LLM) 라우터의 한계를 극복하기 위해 강화 학습(RL) 기반의 새로운 프레임워크인 Router-R1을 제시합니다. 기존의 LLM 라우터는 각 질의를 단일 모델에 매핑하는 단순한 방식을 사용하지만, Router-R1은 여러 LLM을 순차적으로 활용하여 복잡한 작업을 처리합니다. Router-R1은 LLM 자체를 라우터로 활용하여 내부적인 사고 과정과 모델 호출을 번갈아 수행하며, 각 응답을 진화하는 컨텍스트에 통합합니다. 효율적인 학습을 위해 형식 보상, 최종 결과 보상, 그리고 비용 보상을 포함하는 경량 규칙 기반 보상을 사용하여 성능과 비용 간의 균형을 최적화합니다. 또한, 가격, 지연 시간, 예시 성능과 같은 간단한 모델 설명자만을 조건으로 사용하여, 보이지 않는 모델 선택에 대한 강력한 일반화 성능을 보입니다. 7개의 일반 및 다단계 질의응답 벤치마크에 대한 실험 결과, Router-R1은 여러 강력한 기준 모델보다 우수한 성능을 달성하면서 견고한 일반화 및 비용 관리를 유지합니다.