본 논문은 확산 기반 생성 모델의 발전에도 불구하고, 초상화 영상 애니메이션이 시간적 일관성 있는 비디오 생성 및 반복적 샘플링으로 인한 빠른 샘플링에 어려움을 겪고 있다는 점을 지적합니다. 이에 본 논문에서는 흐름 일치 생성 모델을 기반으로 하는 오디오 기반 대화형 초상화 비디오 생성 방법인 FLOAT를 제시합니다. 픽셀 기반 잠재 공간 대신 학습된 직교 운동 잠재 공간을 활용하여 시간적 일관성 있는 동작의 효율적인 생성 및 편집을 가능하게 합니다. 이를 위해 효과적인 프레임 단위 조건화 메커니즘을 갖춘 트랜스포머 기반 벡터 필드 예측기를 도입하였으며, 음성 기반 감정 강화를 지원하여 표현력 있는 동작을 자연스럽게 통합합니다. 광범위한 실험을 통해 제시된 방법이 시각적 품질, 동작 충실도 및 효율성 측면에서 최첨단 오디오 기반 대화형 초상화 방법을 능가함을 보여줍니다.