본 논문은 강화학습(RL)을 이용하여 자동 회귀 이미지 생성에서 사고 연쇄(CoT) 추론 능력을 향상시키는 연구를 다룬다. 특히, Direct Preference Optimization (DPO)와 Group Relative Policy Optimization (GRPO) 두 가지 RL 알고리즘을 자동 회귀 이미지 생성에 적용하여 성능을 비교 분석하고, 다양한 보상 모델과 확장 전략의 영향을 평가한다. LLM 기반 CoT 추론과 달리, 이미지 생성에서는 텍스트-이미지 일관성, 미적 품질, 정교한 보상 모델 설계 등 고유한 과제들이 존재하며, 본 연구는 이러한 과제들을 심층적으로 분석하고, 각 RL 알고리즘의 장단점과 보상 모델의 일반화 능력이 알고리즘 성능에 미치는 영향을 규명한다. 세 가지 확장 전략을 체계적으로 탐구하여 각 알고리즘의 도메인 내외 성능 향상 방안을 제시하며, GRPO와 DPO의 도메인 내 성능 및 도메인 외 일반화 능력을 평가한다. 연구 결과는 강력한 내재적 일반화 능력을 가진 보상 모델이 RL 알고리즘의 일반화 잠재력을 향상시킬 수 있음을 보여준다.