Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Regularización de gaussianidad basada en espectros de momento y potencia para modelos de texto a imagen

Created by
  • Haebom

Autor

Jisung Hwang, Jaihoon Kim, Minhyuk Sung

Describir

Este artículo propone una novedosa pérdida de regularización que guía las muestras para que se ajusten a una distribución gaussiana estándar y así facilitar diversas tareas posteriores, incluyendo la optimización en el espacio latente de modelos de texto a imagen. Tratamos los elementos de muestras de alta dimensión como variables gaussianas estándar unidimensionales en el dominio espacial y definimos una pérdida compuesta que combina la regularización basada en momentos en el dominio espacial y la regularización basada en el espectro de potencia en el dominio espectral. Dado que los valores esperados de las distribuciones de momentos y espectro de potencia se conocen analíticamente, esta pérdida facilita la consistencia con estas propiedades. Para asegurar la invariancia de permutación, la pérdida se aplica a entradas permutadas aleatoriamente. Cabe destacar que las regularizaciones gaussianas existentes están integradas en nuestro marco unificado. Si bien algunas corresponden a pérdidas de momentos de cierto orden, las pérdidas previas por coincidencia de covarianza son equivalentes a nuestra pérdida espectral, pero incurren en una mayor complejidad temporal debido al cálculo en el dominio espacial. En este artículo, demostramos la aplicación de nuestra regularización en el modelado generativo para la alineación de compensación en tiempo de prueba mediante modelos de texto a imagen, centrándonos específicamente en mejorar la estética y la alineación del texto. La regularización propuesta supera a la regularización gaussiana existente, previniendo eficazmente la manipulación de la compensación y acelerando la convergencia.

Takeaways, Limitations

Takeaways:
Se propone una nueva pérdida de regularización para inducir la alineación de la muestra para la distribución gaussiana estándar.
Presentamos un marco integrado que combina la normalización basada en momentos en el dominio espacial y la normalización basada en el espectro de potencia en el dominio espectral.
Se demostró un rendimiento mejorado, prevención de piratería de compensación y velocidad de convergencia en comparación con la regularización gaussiana convencional.
Presentamos la aplicabilidad de los modelos de texto a imagen para mejorar la estética y la alineación del texto.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización de la pérdida de regularización propuesta.
Se necesita una validación experimental extensa para varios modelos de texto a imagen y tareas posteriores.
Aumento potencial de los costos computacionales debido al procesamiento de datos de alta dimensión.
👍