Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Inferencia aproximada basada en borradores para LLM
Created by
Haebom
Autor
Kevin Galim, Ethan Ewer, Wonjun Kang, Minjae Lee, Hyung Il Koo, Kangwook Lee
Describir
A medida que la optimización de la inferencia de los Modelos de Lenguaje Grande (LLM) de contexto largo cobra cada vez mayor importancia debido a la complejidad computacional cuadrática y la complejidad de la memoria lineal de los Transformadores, este artículo propone un nuevo marco que utiliza modelos de borrador a pequeña escala para predecir con mayor precisión la importancia de tokens y pares KV, mejorando así los métodos aproximados existentes (como la eliminación de caché clave-valor (KV), la atención dispersa y la compresión de indicaciones) que predicen aproximadamente la importancia de tokens o pares KV. Específicamente, presentamos dos métodos: SpecKV, que utiliza la salida del modelo de borrador para estimar con precisión la importancia de cada par KV y realiza la eliminación de caché KV con mayor eficacia, y SpecPC, que utiliza la activación de la atención del modelo de borrador para identificar y expulsar tokens de indicaciones sin importancia. Los análisis teóricos y experimentales demuestran la validez de nuestros métodos y muestran una fuerte correlación entre los patrones de atención del modelo de borrador y el modelo objetivo. Experimentos exhaustivos con benchmarks de contexto extenso demuestran que nuestro método supera consistentemente a los modelos base existentes, a la vez que mantiene mejoras en el uso de memoria, la latencia y el rendimiento. El código fuente se encuentra en https://github.com/furiosa-ai/draft-based-approx-llm .
Presentamos un nuevo marco que puede mejorar significativamente la eficiencia de la inferencia LLM de contexto largo aprovechando modelos de borrador de pequeña escala.
◦
SpecKV y SpecPC logran una mayor precisión que los métodos de aproximación existentes y al mismo tiempo mejoran el uso de la memoria, la latencia y el rendimiento.
◦
La validez del método se verificó analizando la correlación de los patrones de atención entre el modelo borrador y el modelo objetivo.
◦
La reproducibilidad se puede garantizar a través del código fuente abierto y puede contribuir al desarrollo de otros investigadores.
•
Limitations:
◦
El rendimiento del modelo preliminar puede afectar el rendimiento del modelo final. Se requiere mayor investigación sobre el diseño y el método de entrenamiento del modelo preliminar.
◦
La eficacia del método propuesto puede depender de conjuntos de datos y modelos específicos. Se requieren experimentos adicionales con diversos conjuntos de datos y modelos.
◦
Puede haber una sobrecarga computacional adicional en el borrador del modelo, y se necesita investigación para minimizarla.