본 논문은 텍스트-이미지 생성 파이프라인의 설계를 자동화하는 새로운 강화 학습 기반 프레임워크를 제시합니다. 기존의 LLM 기반 접근 방식이 가지는 높은 계산 비용 및 일반화 성능 저하 문제를 해결하기 위해, 이미지 품질 점수를 직접 예측하는 보상 모델 앙상블을 훈련하고, 두 단계 훈련 전략(워크플로 어휘 훈련 및 GRPO 기반 최적화)과 분류기 없는 안내 기반 향상 기법을 활용합니다. 이를 통해 다양성이 높고 우수한 이미지 품질을 생성하는 새로운 워크플로를 성공적으로 생성할 수 있음을 보여줍니다.