[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La difusión supera a la autorregresión en entornos con limitaciones de datos

Created by
  • Haebom

Autor

Mihir Prabhudesai, Menging Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Describir

Los modelos autorregresivos (AR) han dominado durante mucho tiempo el campo de los modelos lingüísticos a gran escala, pero recientemente los modelos lingüísticos basados en la difusión han emergido como una alternativa prometedora. En este artículo, estudiamos sistemáticamente los modelos de difusión enmascarados en entornos con restricciones de datos y descubrimos que los modelos de difusión superan significativamente a los modelos autorregresivos cuando los recursos computacionales son abundantes, pero los datos son escasos. Los modelos de difusión utilizan datos repetidamente para reducir la pérdida de validación y lograr un rendimiento superior en tareas posteriores. Esta ventaja puede interpretarse como un aumento implícito de los datos, ya que la difusión enmascarada proporciona exposición del modelo a diversas ordenaciones de tokens y tareas de predicción, a diferencia de la factorización fija de izquierda a derecha de los modelos autorregresivos. En este artículo, descubrimos nuevas leyes de escalado para los modelos de difusión y derivamos expresiones de forma cerrada para el límite computacional crítico en el que la difusión comienza a superar a los modelos autorregresivos. Estos resultados sugieren que los modelos de difusión son una alternativa atractiva al paradigma autorregresivo estándar cuando los recursos computacionales, y no los datos, son el cuello de botella.

Takeaways, Limitations

Takeaways: Demostramos experimentalmente que, en entornos con escasez de datos y abundantes recursos computacionales, el modelo de difusión supera al modelo autorregresivo. Revelamos el efecto implícito de aumento de datos del modelo de difusión y propusimos nuevas leyes de escalado y límites computacionales críticos. Sugerimos el potencial del modelo de difusión en entornos con restricciones de datos.
Limitations: Este estudio se limita a un entorno de restricciones de datos específico, y su generalización a otros conjuntos de datos o tareas requiere mayor investigación. La precisión y generalidad de las expresiones cerradas propuestas podrían requerir mayor verificación. La implementación específica del modelo de difusión enmascarada podría depender de ello.
👍