本稿では、テキストを含む画像を生成するための効率的な新しい方法を提案します。従来のテキスト埋め込み画像生成方法はリソース集約的であり、CPUプラットフォームとGPUプラットフォームの両方で効率的に実行するのが困難です。この論文では、強化学習(RL)を使用してテキストレイアウトの作成を迅速かつ最適化し、拡散モデルベースの画像合成モデルと統合する2段階パイプラインを提供します。 RLベースのアプローチは、バウンディングボックスの予測ステップを大幅に加速し、重なりを減らし、CPUとGPUの両方で効率的な実行を可能にします。 TextDiffuser-2と比較して、テキストの配置と画像合成の品質を維持または上回りながら、実行時間を大幅に短縮し、柔軟性を高めました。 MARIOEvalのベンチマーク評価は、最先端のモデルに近いOCRおよびCLIPScore指標を達成し、97.64%高速で2MBのメモリで実行可能であることを示しました。