비디오 편집 분야의 최근 발전은 시공간적 종속성에 초점을 맞춘 딥러닝 모델을 주류로 이끌었지만, 이러한 모델은 기존 어텐션 메커니즘의 2차 계산 복잡성으로 인해 장시간 및 고해상도 비디오에 적응하기 어렵다는 한계가 있었다. 이 문제를 해결하기 위해, 본 논문은 비디오 기반 확산 모델에 선형 시공간 집계 모듈을 통합하는 새로운 비디오 편집 모델인 VRWKV-Editor를 제안한다. VRWKV-Editor는 RWKV 트랜스포머의 양방향 가중 키-값 재발 메커니즘을 활용하여 시간적 일관성을 유지하면서 전역 종속성을 캡처하여 품질 저하 없이 선형 복잡성을 달성한다.