En este artículo, proponemos un método novedoso y eficiente para la generación de imágenes con texto incrustado. Los métodos existentes de generación de imágenes con texto incrustado consumen muchos recursos y son difíciles de ejecutar eficientemente tanto en plataformas de CPU como de GPU. En este artículo, presentamos una secuencia de dos etapas que utiliza aprendizaje por refuerzo (RL) para generar diseños de texto de forma rápida y óptima, integrándolos con un modelo de síntesis de imágenes basado en difusión. El enfoque basado en RL acelera significativamente la predicción del cuadro delimitador y reduce las superposiciones, lo que permite una ejecución eficiente tanto en CPU como en GPU. En comparación con TextDiffuser-2, reducimos significativamente el tiempo de ejecución y aumentamos la flexibilidad, manteniendo o incluso superando la calidad del diseño de texto y la síntesis de imágenes. Los resultados del benchmark MARIOEval muestran que nuestro método propuesto alcanza métricas de OCR y CLIPScore cercanas a las de los modelos más avanzados, a la vez que es un 97,64 % más rápido y se ejecuta con solo 2 MB de memoria.