본 논문은 시퀀스 관측값으로부터 콘텐츠와 스타일의 분리된 표현을 효과적으로 학습하는 비지도 학습 방법인 V3 (variance-versus-invariance)를 제시합니다. 기존의 분리 학습 알고리즘이 도메인 특정 레이블이나 지식에 의존하는 것과 달리, V3는 콘텐츠와 스타일 간의 도메인 일반적인 통계적 차이에 대한 통찰력에 기반합니다. 구체적으로, 콘텐츠는 동일한 샘플 내 서로 다른 부분들 사이에서 더 많이 변하지만 데이터 샘플 전체에서 불변의 어휘를 유지하는 반면, 스타일은 동일한 샘플 내에서는 상대적으로 불변이지만 서로 다른 샘플 간에는 더 큰 변이를 보이는 점을 활용합니다. 이러한 귀납적 편향을 인코더-디코더 아키텍처에 통합하여 음악 오디오의 피치와 음색, 손으로 쓴 숫자 이미지의 숫자와 색상, 간단한 애니메이션의 액션과 캐릭터 외형 등 다양한 도메인과 모달리티에서 콘텐츠와 스타일의 분리된 표현을 성공적으로 학습합니다. V3는 기존의 비지도 학습 방법에 비해 강력한 분리 성능을 보이며, 지도 학습 방법에 비해 적은 데이터로도 우수한 분포 외 일반화 성능을 보입니다. 마지막으로, 학습된 콘텐츠 코드북에서 상징적 수준의 해석 가능성이 나타나 기계적 표현과 인간의 지식 간의 거의 일대일 대응 관계를 형성합니다.