본 논문은 시각적 충실도는 뛰어나지만 구성적 일반화와 의미적 정렬에 어려움을 겪는 텍스트-비전 생성 모델의 한계를 해결하고자 합니다. 이를 위해, 저자들은 다양한 시각적 장면을 체계적으로 열거하는 데이터 엔진인 "Generate Any Scene"을 제안합니다. 이 엔진은 객체, 속성, 관계의 구조화된 분류 체계로부터 복잡성이 다른 장면 그래프를 동적으로 구성하고, 이를 캡션, 시각적 질문 답변으로 변환하여 자동 평가 및 보상 모델링을 가능하게 합니다. 연구 결과, Generate Any Scene을 활용한 자기 개선 프레임워크, 증류 알고리즘, 보상 모델 개발을 통해 여러 오픈 소스 모델의 성능을 향상시켰으며, 다운스트림 과제인 콘텐츠 조정에도 적용 가능함을 보였습니다.