VidTwin이라는 새로운 소형 비디오 오토인코더를 제안합니다. VidTwin은 비디오를 구조(전반적인 내용과 전반적인 움직임을 포착)와 역동성(세부적인 내용과 빠른 움직임을 나타냄)이라는 두 개의 독립적인 잠재 공간으로 분리합니다. Q-Former와 다운샘플링 블록을 사용하여 저주파 움직임 추세를 추출하고, 공간 차원을 따라 잠재 벡터를 평균하여 빠른 움직임을 포착합니다. MCL-JCV 데이터셋에서 0.20%의 높은 압축률과 28.14의 PSNR을 달성하며, 효율적이고 효과적으로 후속 생성 작업을 수행합니다. 설명 가능성과 확장성을 보여주며, 비디오 잠재 표현과 생성에 대한 미래 연구의 길을 열어줍니다.