본 논문은 비전 모델에서 스타일과 콘텐츠를 명시적으로 분리하는 어려움을 해결하기 위해, 스타일과 콘텐츠를 가역적으로 결합하는 것을 학습하는 SCFlow라는 새로운 프레임워크를 제안합니다. 기존 방법들이 생성적 또는 판별적 목표를 통해 분리를 시도하는 것과 달리, SCFlow는 스타일과 콘텐츠를 먼저 결합한 후, 이를 가역적으로 분리하는 방식을 채택합니다. 이는 세 가지 핵심 통찰력에 기반합니다. 첫째, 잘 정의된 스타일과 콘텐츠 결합 과정만으로도 명시적인 감독 없이 가역적인 분리가 가능하다는 점, 둘째, 흐름 일치(flow matching)를 통해 가우시안 사전 분포의 제약 없이 임의 분포 간의 매핑을 가능하게 한다는 점, 그리고 셋째, 51만 개의 합성 데이터셋을 통해 체계적인 스타일-콘텐츠 쌍을 생성하여 분리를 모사했다는 점입니다. SCFlow는 제어 가능한 생성 작업뿐만 아니라 ImageNet-1k와 WikiArt에 대해 제로샷 설정에서 경쟁력 있는 성능을 달성하며, 가역적인 결합 과정에서 자연스럽게 분리가 발생함을 보여줍니다.