[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TextDiffuser-RL: Optimización eficiente y robusta del diseño de texto para síntesis de texto a imagen de alta fidelidad

Created by
  • Haebom

Autor

Kazi Mahathir Rahman, Showrin Rahman, Sharmin Sultana Srishty

Describir

En este artículo, proponemos un método novedoso y eficiente para la generación de imágenes con texto incrustado. Los métodos existentes de generación de imágenes con texto incrustado consumen muchos recursos y son difíciles de ejecutar eficientemente tanto en plataformas de CPU como de GPU. En este artículo, presentamos una secuencia de dos etapas que utiliza aprendizaje por refuerzo (RL) para generar diseños de texto de forma rápida y óptima, integrándolos con un modelo de síntesis de imágenes basado en difusión. El enfoque basado en RL acelera significativamente la predicción del cuadro delimitador y reduce las superposiciones, lo que permite una ejecución eficiente tanto en CPU como en GPU. En comparación con TextDiffuser-2, reducimos significativamente el tiempo de ejecución y aumentamos la flexibilidad, manteniendo o incluso superando la calidad del diseño de texto y la síntesis de imágenes. Los resultados del benchmark MARIOEval muestran que nuestro método propuesto alcanza métricas de OCR y CLIPScore cercanas a las de los modelos más avanzados, a la vez que es un 97,64 % más rápido y se ejecuta con solo 2 MB de memoria.

Takeaways, Limitations

Takeaways:
Hemos mejorado significativamente la velocidad y la eficiencia de la generación de imágenes con texto utilizando el aprendizaje de refuerzo.
Puede ejecutarse de manera eficiente tanto en plataformas de CPU como de GPU.
Mantiene o supera la calidad de imagen de nivel TextDiffuser-2.
Puede funcionar con poco uso de memoria (2 MB).
Se obtuvieron resultados cercanos al rendimiento de última generación en el punto de referencia MARIOEval.
Limitations:
Hay una falta de referencia específica a Limitations en el método presentado en este documento.
Se requiere una mayor validación del rendimiento y la estabilidad en aplicaciones del mundo real.
Se requiere una evaluación del rendimiento de generalización para varios estilos de texto y diseños complejos.
👍