この論文は、拡散ベースの生成モデルの進歩にもかかわらず、肖像画のアニメーションが時間的に一貫したビデオ生成と繰り返しサンプリングによる遅いサンプリングレートに困難を経験していることを指摘しています。そこで、本稿ではフローマッチング生成モデルに基づくオーディオベースのインタラクティブな肖像画の生成方法であるFLOATを紹介します。ピクセルベースのポテンシャルの代わりに学習された直交運動ポテンシャルを活用して、効率的な生成と時間的に一貫した動きの編集を可能にします。トランスフォーマベースのベクトル場予測器と効果的なフレーム別条件化メカニズムを導入し、これを実現し、音声ベースの感情強化を支援し、自然な表現運動を統合します。実験の結果、この方法は、従来のオーディオベースのインタラクティブなポートレート方法よりも、視覚的品質、動きの忠実度、効率の面で優れていることを示しています。