Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

QuickSilver: Aceleración de la inferencia LLM mediante detención dinámica de tokens, omisión de KV, fusión de tokens contextuales y cuantificación Matryoshka adaptativa

Created by
  • Haebom

Autor

Danush Khanna, Aditya Kumar Guru, Srivarshinee Sridhar, Zidan Ahmed, Rubhav Bahirwani, Meetu Malhotra, Vinija Jain, Aman Chadha, Amitava Das, Kripabandhu Ghosh

Describir

En este artículo, proponemos QuickSilver, un nuevo marco de trabajo para reducir la latencia y el consumo de energía en la inferencia de modelos de lenguaje a gran escala (LLM). Se centra en mejorar la eficiencia del proceso de inferencia, que representa más del 90 % del coste de la inferencia LLM. A diferencia de métodos existentes como la poda, la cuantificación, la terminación temprana y la decodificación predictiva, que requieren el reentrenamiento o la reestructuración del modelo, QuickSilver permite la adaptabilidad semántica en tiempo de inferencia sin modificar los pesos ni la arquitectura del modelo. QuickSilver integra tres técnicas: detención dinámica de tokens, omisión de caché KV y fusión de tokens contextuales, logrando una reducción de FLOP de hasta el 39,6 % en los modelos GPT-2 y Llama-2, a la vez que minimiza la degradación por perplejidad (<=0,2).

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso que puede mejorar significativamente la velocidad de inferencia y la eficiencia energética sin cambiar la estructura del modelo.
Elimina la necesidad de volver a aprender o realizar cambios estructurales en los métodos existentes __T371000_____.
Demuestra aplicabilidad a varios modelos como GPT-2 y Llama-2.
Reducir la complejidad computacional sin sacrificar el rendimiento mediante la adaptabilidad semántica.
Limitations:
Falta de análisis detallado de la efectividad de las tres técnicas presentadas.
Se necesitan experimentos adicionales con diferentes modelos y conjuntos de datos.
Falta de evaluación del desempeño en entornos de implementación reales.
Falta de análisis comparativo con otras técnicas de optimización de inferencia de última generación.
👍