En este artículo, proponemos QuickSilver, un nuevo marco de trabajo para reducir la latencia y el consumo de energía en la inferencia de modelos de lenguaje a gran escala (LLM). Se centra en mejorar la eficiencia del proceso de inferencia, que representa más del 90 % del coste de la inferencia LLM. A diferencia de métodos existentes como la poda, la cuantificación, la terminación temprana y la decodificación predictiva, que requieren el reentrenamiento o la reestructuración del modelo, QuickSilver permite la adaptabilidad semántica en tiempo de inferencia sin modificar los pesos ni la arquitectura del modelo. QuickSilver integra tres técnicas: detención dinámica de tokens, omisión de caché KV y fusión de tokens contextuales, logrando una reducción de FLOP de hasta el 39,6 % en los modelos GPT-2 y Llama-2, a la vez que minimiza la degradación por perplejidad (<=0,2).