Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La difusión supera a la autorregresión en entornos con limitaciones de datos

Created by
  • Haebom

Autor

Mihir Prabhudesai, Mengning Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Describir

Si bien los modelos autorregresivos (AR) han dominado durante mucho tiempo el campo de los modelos lingüísticos a gran escala, los modelos lingüísticos basados en la difusión han surgido recientemente como una alternativa prometedora. En este artículo, estudiamos sistemáticamente los modelos de difusión enmascarados en entornos con restricciones de datos y descubrimos que los modelos de difusión superan significativamente a los modelos autorregresivos cuando los recursos computacionales son abundantes, pero los datos son escasos. Los modelos de difusión utilizan datos repetidamente para reducir la pérdida de validación y lograr un rendimiento superior en tareas posteriores. Esta ventaja puede interpretarse como un aumento implícito de los datos, ya que la difusión enmascarada expone el modelo a diversas ordenaciones de tokens y tareas de predicción, a diferencia de la factorización fija de izquierda a derecha de los modelos autorregresivos. En este artículo, proponemos una nueva ley de escalamiento para los modelos de difusión y derivamos una expresión cerrada para el límite computacional crítico en el que los modelos de difusión superan a los modelos autorregresivos. Estos resultados sugieren que los modelos de difusión representan una alternativa atractiva al paradigma autorregresivo tradicional cuando los recursos computacionales, en lugar de los datos, son el cuello de botella.

Takeaways, Limitations

Takeaways: Demostramos que los modelos de difusión superan a los modelos autorregresivos cuando los recursos computacionales son abundantes y los datos escasos. Demostramos que el efecto implícito de aumento de datos de los modelos de difusión permite el aprendizaje para diversas secuencias de tokens y tareas de predicción. Proporcionamos un análisis de las leyes de escalado y los límites computacionales críticos de los modelos de difusión.
Limitations: Este estudio se limita a un entorno de restricciones de datos específico, y se requiere mayor investigación para determinar su generalización a otras distribuciones o tareas de datos. Los límites computacionales críticos presentados corresponden a un entorno específico y pueden variar en otros entornos.
👍