본 논문은 개인의 고유한 발화 스타일로 인해 동일한 발화에서도 사람마다 다른 입술 모양을 보이는 어려움을 해결하기 위해 스타일 보존 오디오 기반 입술 동기화 방법을 제안합니다. 기존 방법들은 개인화된 발화 스타일 모델링을 고려하지 않거나, 스타일 참조 영상의 정보를 정확하게 집계하지 못해 스타일을 제대로 유지하지 못하는 한계가 있었습니다. 본 논문에서는 입력 오디오와 스타일 참조 영상의 오디오 간 관계를 활용하는 혁신적인 오디오 인식 스타일 참조 기법을 제시합니다. 트랜스포머 기반 모델을 통해 스타일 정보를 활용하여 입술 움직임을 예측하고, 조건부 잠재 확산 모델을 통해 입술 움직임을 사실적인 영상으로 렌더링합니다. 실험 결과, 제안된 방법이 정확한 입술 동기화, 발화 스타일 보존, 고품질 사실적인 영상 생성에 효과적임을 보여줍니다.