본 논문에서는 비디오 편집의 발전이 비디오 생성에 비해 더딘 현황을 진단하고, 이를 개선하기 위한 경량 자기 지도 학습 기법인 UES(Unlocking Universal Editing via Self-Supervision)를 제안합니다. UES는 자기 지도 방식의 의미 정렬을 통해 생성 모델을 생성-편집 통합 시스템으로 변환하는 기술입니다. 원본 비디오-텍스트 쌍을 이용한 이중 조건화 메커니즘을 통해 시공간적 상관관계를 학습하며, 다양한 편집 작업에 대한 지도 학습 없이 적용 가능한 보편성, 대부분의 텍스트(+이미지)-비디오 모델에 적용 가능한 생성 및 편집의 통합, 그리고 튜닝 파라미터를 92.67% 감소시키는 효율성을 특징으로 합니다. 99개의 비디오를 포함하는 종합적인 벤치마크 OmniBench-99를 소개하여, UES가 기존 생성 성능을 유지하거나 향상시키면서 강력하고 보편적인 편집을 수행하도록 하는 것을 실험적으로 입증합니다.