Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La difusión supera a la autorregresión en entornos con limitaciones de datos

Created by
  • Haebom

Autor

Mihir Prabhudesai, Menging Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Describir

En este artículo, comparamos el rendimiento de los modelos de lenguaje autorregresivos (AR) y los modelos de lenguaje basados en difusión en entornos con escasez de datos. Demostramos experimentalmente que, cuando se proporcionan suficientes recursos computacionales en una situación de aprendizaje repetido con datos limitados, el modelo de difusión supera significativamente al modelo autorregresivo. Interpretamos esto como resultado del efecto implícito de aumento de datos obtenido por el modelo de difusión al exponerlo a diversas distribuciones de orden de tokens y tareas de predicción. Además, proponemos una nueva ley de escalamiento para el modelo de difusión y derivamos una fórmula de forma cerrada para calcular la cantidad crítica de computación en la que el modelo de difusión supera al modelo autorregresivo. En conclusión, sugerimos que el modelo de difusión puede ser una alternativa atractiva al modelo autorregresivo en situaciones donde los datos son menos abundantes que los recursos computacionales.

Takeaways, Limitations

Takeaways:
Demostramos que los modelos de difusión pueden superar a los modelos autorregresivos cuando hay suficientes recursos computacionales disponibles en situaciones donde los datos son limitados.
Sugerimos que la exposición a diferentes órdenes de tokens y tareas de predicción contribuye a mejorar el rendimiento a través del efecto de aumento de datos implícito del modelo de difusión.
Presentamos una nueva ley de escala para el modelo de difusión y una fórmula para calcular la cantidad crítica de computación que supera al modelo autorregresivo.
Los modelos de difusión ofrecen una alternativa prometedora a los modelos autorregresivos tradicionales cuando la escasez de datos es un cuello de botella importante.
Limitations:
Este estudio es un análisis comparativo bajo restricciones de datos específicas, por lo que los resultados pueden variar en otros conjuntos de datos o condiciones.
La interpretación del efecto implícito de aumento de datos del modelo de difusión requiere una verificación más profunda a través de investigaciones adicionales.
Es necesario examinar más a fondo la generalización de la fórmula de cálculo de operación crítica propuesta.
👍