[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LoopServe: un sistema de aceleración de inferencia LLM adaptativo de doble fase para diálogos multiturno

Created by
  • Haebom

Autor

Haoyang Li, Zhanchao Xu, Yiming Li, Xuejia Chen, Darian Li, Anxin Tian, Qingfa Xiao, Cheng Deng, Jun Wang, Qing Li, Lei Chen, Mingxuan Yuan

Describir

En este artículo, proponemos LoopServe, un nuevo marco para la aceleración eficiente de la inferencia en conversaciones multironda en inteligencia artificial conversacional (LLM). LoopServe presenta dos enfoques innovadores para abordar las dificultades de los LLM existentes en el manejo de contextos largos en conversaciones multironda. En primer lugar, realiza una esparsificación en línea mediante la selección dinámica de partes importantes de la matriz de atención en el paso de prellenado. En segundo lugar, utiliza la compresión incremental de clave-valor en el paso de decodificación para mantener de forma adaptativa cachés relevantes y eficientes basadas en tokens generados recientemente. Además, presentamos un nuevo punto de referencia compuesto por 11 conjuntos de datos multironda que reflejan posiciones realistas de las preguntas y dependencias de la conversación. Los resultados experimentales muestran que LoopServe logra una mayor eficiencia que los modelos de referencia existentes y mejora significativamente la velocidad de inferencia de LLM en diversas tareas de conversación de contexto largo.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar eficazmente la velocidad de inferencia de LLM en conversaciones de múltiples rondas.
Es posible un procesamiento más eficiente a través de un enfoque adaptativo que las heurísticas tradicionales fijas o basadas en la ubicación.
Proporcionamos un nuevo punto de referencia que incluye un conjunto de datos de conversaciones realistas de múltiples rondas.
Se demostró un rendimiento superior de LoopServe en varias tareas de conversación de contexto largo.
Limitations:
Es necesaria una mayor validación de la generalización del punto de referencia propuesto.
El rendimiento de LoopServe puede depender de arquitecturas LLM o conjuntos de datos específicos.
Se necesita más análisis sobre la complejidad de los procesos de esparcimiento en línea y de compresión incremental de clave-valor.
👍