Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos de lenguaje de difusión Conozca la respuesta antes de decodificar

Created by
  • Haebom

Autor

Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu

Describir

Los Modelos de Lenguaje de Difusión (DLM) ofrecen generación de secuencias paralelas y ordenación flexible de tokens, pero su velocidad de inferencia es menor que la de los modelos autorregresivos debido al coste de la atención bidireccional y a los numerosos pasos de refinamiento necesarios para obtener resultados de alta calidad. Este artículo destaca una característica previamente pasada por alto de los DLM: la convergencia de respuestas tempranas. En muchos casos, la respuesta correcta puede identificarse internamente incluso a mitad del paso final de decodificación. Con base en esta observación, este artículo propone Prophet, un paradigma de decodificación rápido y sin entrenamiento que permite la decodificación de confirmación temprana. Prophet determina dinámicamente si continuar con el refinamiento o decodificar todos los tokens restantes a la vez, basándose en la diferencia de confianza entre los dos principales candidatos de predicción. Se integra a la perfección con las implementaciones de DLM existentes y no requiere sobrecarga ni entrenamiento adicional. Los resultados experimentales en LLaDA-8B y Dream-7B en diversas tareas demuestran que Prophet reduce el número de pasos de decodificación hasta 3,4 veces, manteniendo una alta calidad de generación. Esto replantea la decodificación DLM como el problema de decidir cuándo detener el muestreo y muestra que la convergencia de decodificación temprana es un mecanismo simple pero poderoso para acelerar la inferencia DLM.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso que mejora significativamente la velocidad de decodificación al explotar el fenómeno de convergencia de respuesta temprana de los DLM.
Un método eficiente que se puede integrar en implementaciones DLM existentes sin aprendizaje adicional.
Mantenga una alta calidad de generación mientras reduce la cantidad de pasos de decodificación hasta 3,4 veces.
Una nueva perspectiva sobre la aceleración de la inferencia DLM (replanteada como un problema de decidir cuándo detener el muestreo).
Limitations:
La efectividad del método propuesto puede variar dependiendo del modelo DLM y la tarea utilizada.
Se necesitan más investigaciones para explorar la optimización potencial de los métodos de toma de decisiones de terminación anticipada basados ​​en las diferencias de confianza.
Puede que solo sea aplicable a determinados tipos de DLM.
Se necesita una experimentación más amplia con diferentes modelos y tareas.
👍