本論文は、ゼロショット音声変換(VC)における既存の困難である話者の類似性と自然さの確保の問題を解決するためにCTEFM-VCフレームワークを提案する。 CTEF-VCは、音声をコンテンツとボイスに分離し、条件付きフローマッチングモデルを使用してソース音声のMel-spectrogramを再構成します。特に、文脈認識音色アンサンブルモデリングと構造的類似性に基づく音色損失関数を導入することによって生成される音声の自然さと音色モデリング性能を向上させた。さまざまな話者検証エンベディングを適応的に統合するクロスアテンションモジュールを使用して、ソースコンテンツとターゲットボイス要素を効果的に活用します。実験の結果、CTEFM-VCは既存の最先端のゼロショットVCシステムを大幅に上回り、話者の類似性、音声の自然さ、明瞭性評価指標で最高のパフォーマンスを達成しました。