[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Fusión guiada de tokens de representante local para la generación de texto a imagen

Created by
  • Haebom

Autor

Min Jeong Lee, Hee Dong Kim, Seong Whan Lee

Describir

En este artículo, proponemos una novedosa estrategia de fusión de tokens, ReToM (fusión guiada de tokens representativos locales), para mejorar la velocidad de Stable Diffusion, un modelo de generación de imágenes basado en texto. Si bien los métodos de fusión de tokens existentes se centran en reducir la complejidad computacional de las operaciones de atención, no consideran las características de los modelos de generación de imágenes. Para superar esta limitación, ReToM define límites locales basados en ventanas en la entrada de atención y ajusta el tamaño de la ventana para fusionar tokens según diversa información contextual. Además, introducimos un token representativo que selecciona el token más representativo en cada ventana calculando la similitud en un paso de tiempo específico, minimizando así la sobrecarga computacional y preservando las características locales más importantes. Los resultados experimentales muestran que ReToM mejora la FID en un 6,2% y aumenta la puntuación CLIP en comparación con el modelo de referencia, manteniendo un tiempo de inferencia similar. Esto demuestra empíricamente que equilibra eficazmente la calidad visual y la eficiencia computacional.

Takeaways, Limitations

Takeaways:
Presentamos una nueva estrategia de fusión de tokens, ReToM, que contribuye a mejorar la velocidad de los modelos de generación de imágenes basados en la atención, como Stable Diffusion.
Mejora confirmada en la calidad de la imagen a través de puntuaciones FID y CLIP mejoradas.
Logra efectivamente un equilibrio entre la eficiencia computacional y la calidad de la imagen.
Presentación de una metodología general aplicable a diversos mecanismos de atención.
Limitations:
Las mejoras de rendimiento de ReToM pueden estar limitadas a conjuntos de datos o modelos específicos.
Es posible que sea necesario realizar más investigaciones para optimizar las estrategias para el tamaño de las ventanas y la selección de tokens representativos.
Se necesita un análisis comparativo más completo con otros métodos de fusión de tokens.
👍