Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ASPD: Desbloqueo de la decodificación adaptativa serie-paralelo mediante la exploración del paralelismo intrínseco en LLM

Created by
  • Haebom

Autor

Keyu Chen, Zhifeng Shen, Daohai Yu, Haoqian Wu, Wei Wen, Jianfeng He, Ruizhi Qiao, Xing Sun

Describir

Este artículo se centra en el potencial de procesamiento paralelo de la decodificación autorregresiva para abordar el problema de latencia de inferencia de los modelos de lenguaje a gran escala (LLM). Proponemos una técnica de decodificación adaptativa serie-paralela (ASPD) que aprovecha el paralelismo intrínseco en la salida de los modelos autorregresivos para realizar decodificación paralela. La ASPD consta de una secuencia de comandos que extrae y valida automáticamente estructuras de datos paralelizables y un motor de decodificación híbrido que permite la conmutación fluida entre los modos de decodificación serie y paralelo. Los resultados experimentales en diversas tareas (tareas generales, generación de búsqueda aumentada e inferencia matemática) demuestran que la ASPD supera a los métodos existentes en términos de eficiencia y eficacia, alcanzando una aceleración promedio de 1,85x (hasta 3,19x) en el banco de pruebas Vicuna, manteniendo una degradación de la calidad de respuesta inferior al 1%.

Takeaways, Limitations

Takeaways:
Presentamos una nueva técnica de decodificación paralela que mejora drásticamente la velocidad de inferencia de LLM.
Mejoras sustanciales del rendimiento mediante la extracción automatizada de estructuras paralelas y mecanismos de decodificación paralela eficientes.
Ampliar las posibilidades de implementación de LLM para aplicaciones sensibles a la latencia, como bots de servicio al cliente impulsados por IA y motores de búsqueda de respuestas.
Validación de efectividad y eficiencia a través de los resultados del experimento Vicuna Bench.
Limitations:
Se necesita más investigación para evaluar el rendimiento de generalización de la técnica ASPD propuesta y su aplicabilidad a varias arquitecturas LLM.
Se necesita investigación continua para mejorar la precisión y eficiencia de la extracción automática de estructuras procesables en paralelo.
Los resultados se basan en un punto de referencia específico (Vicuna Bench) y se requiere verificación del rendimiento en otros puntos de referencia o entornos de aplicaciones del mundo real.
👍