본 논문은 대규모 텍스트-to-비디오 확산 모델을 미세 조정하여 물리적 카메라 파라미터(예: 셔터 속도 또는 조리개)와 같은 새로운 생성적 제어를 추가하는 연구를 제시합니다. 광범위하고 고품질의 데이터 세트가 필요한 기존 방식과 달리, 본 연구는 희소하고 품질이 낮은 합성 데이터로부터 이러한 제어를 학습하는 데이터 효율적인 미세 조정 전략을 제안합니다. 실제로 이 간단한 데이터를 사용한 미세 조정이 실제 데이터를 사용한 경우보다 우수한 결과를 얻는다는 것을 확인했으며, 직관적이고 정량적인 프레임워크를 통해 이러한 현상을 설명합니다.