Sign In

Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V

Created by
  • Haebom
Category
Empty

저자

Meftun Akarsu, Kerem Catay, Sedat Bin Vedat, Enes Kutay Yarkan, Ilke Senturk, Arda Sar, Dafne Eksioglu

개요

본 논문은 소규모 데이터셋을 사용하여 오픈 소스 비디오 확산 변환기를 미세 조정하여 영화 및 TV 제작용 시네마틱 장면을 합성하는 실용적인 파이프라인을 제시합니다. 제안된 2단계 프로세스는 시각적 스타일 학습과 모션 생성을 분리합니다. 첫 번째 단계에서는 LoRA 모듈을 Wan2.1 I2V-14B 모델의 교차 주의 레이어에 통합하여 Ay Yapim의 역사 TV 영화 El Turco의 짧은 클립으로 구성된 소형 데이터셋을 사용하여 시각적 표현을 조정합니다. 이를 통해 단일 GPU에서 몇 시간 내에 효율적인 도메인 전송이 가능합니다. 두 번째 단계에서는 미세 조정된 모델이 의상, 조명 및 색상 그레이딩을 유지하는 스타일리시하게 일관된 키프레임을 생성하며, 이 키프레임은 모델의 비디오 디코더를 통해 일관된 720p 시퀀스로 시간적으로 확장됩니다. 또한 품질 저하 없이 추론을 가속화하기 위해 경량 병렬화 및 시퀀스 분할 전략을 적용합니다. FVD, CLIP-SIM 및 LPIPS 메트릭을 사용한 정량적 및 정성적 평가와 소규모 전문가 사용자 연구를 통해 기본 모델보다 영화적 충실도와 시간적 안정성이 측정 가능한 개선을 보여줍니다. 전체 학습 및 추론 파이프라인은 재현 가능성과 영화 도메인 전반에 걸친 적응을 지원하기 위해 공개되었습니다.

시사점, 한계점

소규모 데이터셋으로도 시네마틱 장면 합성이 가능한 실용적인 파이프라인 제시
시각적 스타일 학습과 모션 생성을 분리하여 효율적인 학습
단일 GPU에서 빠른 학습 가능
경량 병렬화 및 시퀀스 분할 전략을 통해 추론 속도 향상
FVD, CLIP-SIM, LPIPS 메트릭을 사용한 정량적 평가 및 전문가 사용자 연구를 통한 성능 검증
전체 파이프라인 공개로 재현 가능성 및 도메인 적응성 지원
한계점은 논문에 명시되지 않음
👍