본 논문은 음성 변환 분야에서 데이터 속성 조작에 대한 강력한 제어와 해석 가능성을 제공하는 일반적인 프레임워크를 제안한다. 기존의 음성 스타일 변환 방식이 경험적인 것에 비해, 본 연구는 이론적 분석과 보장을 제공한다. 이 프레임워크는 비확률적 오토인코더 구조를 기반으로 하며, 예측된 잠재 변수와 제어 가능한 대상 변수 간의 독립성 제약 조건을 둔다. 이 설계를 통해 원본 콘텐츠를 보존하면서 관찰된 스타일 변수를 기반으로 일관된 신호 변환을 수행하고, 원하는 속성을 수정할 수 있다. 화자 정체성 및 감정과 같은 다양한 음성 스타일에 대한 실험을 통해 제안된 방법의 효과와 일반성을 입증한다.