Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation

Created by
  • Haebom

저자

Zeyu Ling, Xiaodong Gu, Jiangnan Tang, Changqing Zou

개요

SyncLipMAE는 비디오에서 말하는 얼굴을 위한 자체 감독 사전 훈련 프레임워크로, 레이블이 없는 오디오-비주얼 스트림에서 동기화 인식 및 전이 가능한 얼굴 역학을 학습합니다. 이 방법은 마스크된 시각적 모델링과 교차 모달 대비 정렬을 결합하고, 말하는 얼굴 프레임의 필수 요소(신원, 발성 동작, 주변 동작)를 명시적으로 인코딩하는 세 개의 프레임별 프롬프트 토큰을 사용합니다. 대비 목적 함수는 시간 정렬된 발성 동작 및 오디오 토큰을 긍정 예로, 정렬되지 않은 쌍을 부정 예로 사용하여 두 모드를 공유 임베딩 공간으로 유도하고 토큰 수준의 오디오-비주얼 스트림 동기화를 생성합니다. 사전 훈련 후, 정렬된 오디오 토큰은 시각적 프롬프트 토큰과 함께 4가지 다운스트림 설정(오디오-비주얼 스트림 동기화, 얼굴 감정 및 머리/얼굴 동작 인식, 시각적 음성 인식, 시각적 더빙)을 위한 통일된 인터페이스를 형성합니다. SyncLipMAE는 4가지 작업에서 최고 성능을 달성하여 동기화 인식, 요인 분해 자체 감독 사전 훈련의 효과를 보여줍니다.

시사점, 한계점

시사점:
SyncLipMAE는 레이블이 없는 데이터에서 동기화 인식 및 전이 가능한 얼굴 역학을 효과적으로 학습합니다.
단일 모델 내에서 오디오 또는 비디오 기반 제어를 가능하게 하여 시각적 더빙과 같은 다양한 다운스트림 작업에 적용 가능합니다.
4가지 서로 다른 작업에서 최첨단 성능을 달성했습니다.
한계점:
논문 자체에서 한계점을 명시적으로 언급하지 않았습니다.
구체적인 구현 세부 사항이나 계산 비용에 대한 정보가 부족합니다.
👍