본 논문은 시퀀스 관측 데이터로부터 콘텐츠와 스타일을 효과적으로 분리하여 학습하는 비지도 학습 방법인 V3를 제안한다. 기존의 대부분의 분리 학습 알고리즘이 도메인 특정 레이블이나 지식에 의존하는 것과 달리, V3는 콘텐츠와 스타일 간의 도메인 일반적인 통계적 차이에 대한 통찰력에 기반한다. 즉, 콘텐츠는 하나의 샘플 내 여러 조각들 간에 변화가 크지만 데이터 샘플 전체에서는 불변의 어휘를 유지하는 반면, 스타일은 하나의 샘플 내에서는 비교적 불변이지만 서로 다른 샘플 간에는 더 큰 변화를 보인다는 점을 활용한다. 이러한 귀납적 편향을 인코더-디코더 아키텍처에 통합하여 V3를 개발하였다. 실험 결과, V3는 음악 오디오의 피치와 음색, 손글씨 숫자 이미지의 숫자와 색상, 간단한 애니메이션의 액션과 캐릭터 외형 등 여러 도메인과 모달리티에서 콘텐츠와 스타일 표현을 성공적으로 분리 학습하는 것을 보여준다. 기존의 비지도 학습 방법에 비해 우수한 분리 성능을 보이며, 지도 학습 방법에 비해 적은 데이터로의 적응(few-shot adaptation)에서 뛰어난 분포 외 일반화 성능을 보인다. 마지막으로, 학습된 콘텐츠 코드북에서 기호 수준의 해석 가능성이 나타나, 기계 표현과 인간의 지식 간의 거의 일대일 매핑이 이루어진다.