본 논문은 복잡한 공간적 관계와 속성을 지닌 여러 객체를 명시하는 복잡한 프롬프트에 대한 이미지 생성 모델의 어려움을 해결하기 위해, 강화 학습을 활용한 새로운 프레임워크 GoT-R1을 제시합니다. GoT-R1은 Generation Chain-of-Thought 접근 방식을 기반으로, 사전 정의된 템플릿을 넘어 효과적인 추론 전략을 자율적으로 발견할 수 있도록 설계되었습니다. 이를 위해, MLLM(대규모 언어 모델)을 활용하여 추론 과정과 최종 출력 모두를 평가하는 2단계 다차원 보상 체계를 제안합니다. 이 보상 시스템은 의미 정합성, 공간 정확도 및 시각적 품질을 통합적으로 평가합니다. 실험 결과, T2I-CompBench 벤치마크에서, 특히 정확한 공간 관계와 속성 바인딩을 포함하는 구성 작업에서 상당한 성능 향상을 보였으며, GoT-R1은 정교한 추론 능력을 시각적 생성 영역으로 성공적으로 전이시켜 최첨단 기술을 발전시켰습니다. 코드와 사전 훈련된 모델은 공개적으로 제공됩니다.