[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Plan para la velocidad: Programación dilatada para modelos de lenguaje de difusión enmascarada

Created by
  • Haebom

Autor

Omer Luxemburgo, Haim Permuter, Eliya Nachmani

Describir

Los Modelos de Lenguaje de Difusión Enmascarada (MDLM) prometen una generación de texto rápida y no autorregresiva, pero los muestreadores existentes reducen los comportamientos autorregresivos a lentos al ignorar las interacciones al desenmascarar múltiples posiciones en paralelo, según el nivel de confianza del modelo. En este artículo, proponemos un planificador de desenmascaramiento diluido (DUS). DUS divide las posiciones de secuencia en grupos diluidos no adyacentes de forma puramente inferencial, sin necesidad de un modelo planificador, y los desenmascara en paralelo para minimizar un límite superior en la ganancia de entropía conjunta en cada paso de denoising. Al hacer explícito el equilibrio entre el número de llamadas de red y la calidad de la generación, DUS recupera la mayor parte del rendimiento perdido con las estrategias de desenmascaramiento en paralelo existentes. En matemáticas (GSM8K, MATH500), código (HumanEval, MBPP) y referencias de conocimiento general (BBH, MMLU-Pro), DUS supera a los planificadores basados en la confianza sin modificar el denoiser subyacente, lo que demuestra la verdadera frontera entre velocidad y calidad de MDLM.

Takeaways, Limitations

Takeaways: El Planificador de Desenmascaramiento Diluido (DUS) supera las limitaciones de las estrategias de desenmascaramiento paralelas existentes y mejora significativamente la velocidad y la calidad de los modelos de lenguaje de difusión de máscara. Supera al planificador basado en confianza en diversas pruebas de referencia e introduce una nueva frontera de velocidad y calidad para MDLM. Cabe destacar que la mejora del rendimiento se logra sin modificar el denoiser subyacente.
Limitations: Si bien este artículo ha verificado el rendimiento de DUS en diversas pruebas de referencia, se requiere mayor investigación para determinar si se puede generalizar a todo tipo de tareas de generación de texto. Además, la falta de un análisis detallado de la configuración de parámetros o la optimización de DUS puede dificultar su aplicación práctica. También se requiere mayor investigación para determinar si DUS se puede aplicar a todos los MDLM y si depende de una arquitectura de modelo específica.
👍