Este artículo ofrece una visión general de las estrategias de enrutamiento para mejorar la eficiencia de los sistemas basados en modelos de lenguaje a gran escala (LLM). Los sistemas existentes basados en un solo LLM pueden ser ineficientes debido al uso de los mismos recursos para todas las consultas, por lo que se necesita un mecanismo para enrutar a un modelo adecuado (en términos de tamaño o especificidad) según las características de la consulta. En este artículo, revisamos diversas estrategias de implementación, como las basadas en similitud, aprendizaje supervisado, aprendizaje por refuerzo y métodos generativos, al integrar el enrutamiento en la secuencia de LLM (antes o después de la generación), con el objetivo de minimizar costos y maximizar el rendimiento. También analizamos las aplicaciones industriales y las Limitations actuales (estandarización de experimentos de enrutamiento, consideración de costos no financieros, diseño de estrategias adaptativas, etc.), y sugerimos líneas para futuras investigaciones y desarrollos mediante la formulación del enrutamiento como un problema de optimización de costo-rendimiento.