본 논문은 소규모 데이터셋을 사용하여 오픈 소스 비디오 확산 변환기를 미세 조정하여 영화 및 TV 제작용 시네마틱 장면을 합성하는 실용적인 파이프라인을 제시합니다. 제안된 2단계 프로세스는 시각적 스타일 학습과 모션 생성을 분리합니다. 첫 번째 단계에서는 LoRA 모듈을 Wan2.1 I2V-14B 모델의 교차 주의 레이어에 통합하여 Ay Yapim의 역사 TV 영화 El Turco의 짧은 클립으로 구성된 소형 데이터셋을 사용하여 시각적 표현을 조정합니다. 이를 통해 단일 GPU에서 몇 시간 내에 효율적인 도메인 전송이 가능합니다. 두 번째 단계에서는 미세 조정된 모델이 의상, 조명 및 색상 그레이딩을 유지하는 스타일리시하게 일관된 키프레임을 생성하며, 이 키프레임은 모델의 비디오 디코더를 통해 일관된 720p 시퀀스로 시간적으로 확장됩니다. 또한 품질 저하 없이 추론을 가속화하기 위해 경량 병렬화 및 시퀀스 분할 전략을 적용합니다. FVD, CLIP-SIM 및 LPIPS 메트릭을 사용한 정량적 및 정성적 평가와 소규모 전문가 사용자 연구를 통해 기본 모델보다 영화적 충실도와 시간적 안정성이 측정 가능한 개선을 보여줍니다. 전체 학습 및 추론 파이프라인은 재현 가능성과 영화 도메인 전반에 걸친 적응을 지원하기 위해 공개되었습니다.
시사점, 한계점
•
소규모 데이터셋으로도 시네마틱 장면 합성이 가능한 실용적인 파이프라인 제시
•
시각적 스타일 학습과 모션 생성을 분리하여 효율적인 학습
•
단일 GPU에서 빠른 학습 가능
•
경량 병렬화 및 시퀀스 분할 전략을 통해 추론 속도 향상
•
FVD, CLIP-SIM, LPIPS 메트릭을 사용한 정량적 평가 및 전문가 사용자 연구를 통한 성능 검증