この論文は、拡散ベースの生成モデルの進歩にもかかわらず、肖像画のアニメーションが時間的に一貫したビデオ生成と繰り返しサンプリングによる高速サンプリングに困難を抱えていることを指摘しています。この論文では、フローマッチング生成モデルに基づくオーディオベースのインタラクティブポートレートビデオ生成方法であるFLOATを紹介します。ピクセルベースのポテンシャルの代わりに学習された直交運動ポテンシャルを活用して、時間的に一貫した動作の効率的な作成と編集を可能にします。この目的のために、効果的なフレーム単位の条件付けメカニズムを備えた変圧器ベースのベクトルフィールド予測器を導入し、音声ベースの感情の強化をサポートし、表現力のある動きを自然に統合します。広範な実験を通して提示された方法は、視覚的品質、動作忠実度、および効率性の観点から、最先端のオーディオベースのインタラクティブな肖像画方法を上回ることを示しています。