この論文は、拡散ベースの生成モデルの進歩にもかかわらず、肖像画のアニメーションが時間的に一貫したビデオ生成と繰り返しサンプリングによる遅いサンプリングレートに困難を経験していることを指摘しています。これを解決するために、フローマッチ生成モデルに基づくオーディオベースのインタラクティブポートレートビデオ生成方法であるFLOATを提示します。 FLOATは、ピクセルベースのポテンシャル空間の代わりに学習された直交運動ポテンシャルを使用して、効率的な生成と時間的に一貫した動きの編集を可能にします。効果的なフレームごとの条件化メカニズムを備えた変圧器ベースのベクトル場予測器を導入することによってこれを実現します。また、音声ベースの感情強化をサポートし、表現力のある動作を自然に統合します。実験結果は,提示された方法は,従来の最先端のオーディオベースのインタラクティブな肖像法よりも視覚的品質,動作忠実度,効率の面で優れていることを示した。