本論文は、音声変換の分野におけるデータ属性操作の強力な制御と解釈の可能性を提供する一般的なフレームワークを提案する。従来の音声スタイル変換方式が経験的であると比較して、本研究は理論的分析と保証を提供する。このフレームワークは、非確率的なオートエンコーダ構造に基づいており、予測された潜在変数と制御可能な対象変数との間の独立性制約を設定します。この設計により、元のコンテンツを保存しながら観察されたスタイル変数に基づいて一貫した信号変換を行い、所望の属性を修正することができる。話者のアイデンティティや感情などのさまざまな音声スタイルに対する実験を通して、提案された方法の効果と一般性を実証する。