Uri Gadot, Rinon Gal, Yftah Ziser, Gal Chechik, Shie Mannor
개요
본 논문은 텍스트-이미지 생성 파이프라인 설계를 자동화하기 위한 새로운 강화 학습 기반 프레임워크를 제시한다. 기존 LLM 기반 방법론의 높은 계산 비용과 일반화 부족 문제를 해결하기 위해, 보상 모델 앙상블을 활용하여 훈련 중 이미지 생성을 최소화하고, GRPO 기반 최적화 전략과 분류기 없는 안내 기법을 도입하여 이미지 품질과 다양성을 향상시킨다.