SyncLipMAE는 비디오에서 말하는 얼굴을 위한 자체 감독 사전 훈련 프레임워크로, 레이블이 없는 오디오-비주얼 스트림에서 동기화 인식 및 전이 가능한 얼굴 역학을 학습합니다. 이 방법은 마스크된 시각적 모델링과 교차 모달 대비 정렬을 결합하고, 말하는 얼굴 프레임의 필수 요소(신원, 발성 동작, 주변 동작)를 명시적으로 인코딩하는 세 개의 프레임별 프롬프트 토큰을 사용합니다. 대비 목적 함수는 시간 정렬된 발성 동작 및 오디오 토큰을 긍정 예로, 정렬되지 않은 쌍을 부정 예로 사용하여 두 모드를 공유 임베딩 공간으로 유도하고 토큰 수준의 오디오-비주얼 스트림 동기화를 생성합니다. 사전 훈련 후, 정렬된 오디오 토큰은 시각적 프롬프트 토큰과 함께 4가지 다운스트림 설정(오디오-비주얼 스트림 동기화, 얼굴 감정 및 머리/얼굴 동작 인식, 시각적 음성 인식, 시각적 더빙)을 위한 통일된 인터페이스를 형성합니다. SyncLipMAE는 4가지 작업에서 최고 성능을 달성하여 동기화 인식, 요인 분해 자체 감독 사전 훈련의 효과를 보여줍니다.