PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Created by

Haebom

저자

Xiaofeng Mao, Shaohao Rui, Kaining Ying, Bo Zheng, Chuanhao Li, Mingmin Chi, Kaipeng Zhang

💡 개요

본 논문은 긴 비디오 생성 시 발생하는 KV 캐시 증가, 시간적 반복, 오류 누적 문제를 해결하기 위해 PackForcing이라는 통합 프레임워크를 제안합니다. PackForcing은 Sink, Mid, Recent 토큰으로 구성된 3분할 KV 캐시 전략을 사용하여 비디오 히스토리를 효율적으로 관리하며, 특히 Mid 토큰은 32배의 시공간 압축을 통해 메모리 사용량을 크게 줄입니다. 이를 통해 짧은 비디오 클립으로만 학습해도 2분 길이의 고품질 긴 비디오를 효율적으로 생성할 수 있습니다.

🔑 시사점 및 한계

•

짧은 비디오 클립 학습만으로도 긴 비디오 생성 및 추론이 가능하다는 것을 입증했습니다.

•

제안된 3분할 KV 캐시 전략과 동적 컨텍스트 선택 메커니즘이 메모리 효율성과 비디오 품질을 동시에 달성할 수 있음을 보여줍니다.

•

4GB의 제한된 KV 캐시로 2분 길이의 비디오를 생성할 수 있으며, 24배의 시간적 외삽(5초 -> 120초)이 가능합니다.

•

Mid 토큰에서 발생하는 토큰 누락으로 인한 위치 간격 문제를 해결하기 위한 연속적 Temporal RoPE Adjustment의 적용은 추가적인 평가가 필요할 수 있습니다.

PDF 보기

Made with Slashpage