FluentLip은 오디오 기반 입술 동기화 합성에서 입술의 명료성과 비디오의 자연스러움을 개선하는 새로운 방법을 제안합니다. 이는 음성과 음소 정보를 결합하는 다중 모달 학습, 광학 흐름 일관성 손실을 이용한 프레임 간 자연스러운 전이, 그리고 GAN 훈련 중 확산 사슬을 통한 안정성 및 효율성 향상이라는 세 가지 전략을 통합하는 2단계 접근 방식입니다. 다양한 평가 지표(FID, PER 포함)를 통해 기존 최첨단 방법들과 비교하여 FluentLip의 우수성을 실험적으로 입증합니다. 특히 FID에서 약 16.3%, PER에서 약 35.2%의 성능 향상을 보였습니다.