본 논문은 오디오 기반 토킹 헤드 생성 분야에서 얼굴 속성 편집 기능을 통합한 FaceEditTalker 프레임워크를 제시합니다. 기존 연구들이 입술 동기화 및 감정 표현에 집중한 것과 달리, FaceEditTalker는 헤어스타일, 액세서리, 미묘한 얼굴 특징 등의 시각적 속성을 유연하게 조절하여 사용자 맞춤형 디지털 아바타, 온라인 교육 콘텐츠, 브랜드 특화 디지털 고객 서비스 등 다양한 응용 분야에 활용될 수 있도록 설계되었습니다. 이를 위해 이미지 특징 공간 편집 모듈과 오디오 기반 비디오 생성 모듈로 구성되어 있으며, 확산 기반 생성기를 이용하여 시간적 일관성, 시각적 충실도, 그리고 프레임 간 정체성 보존을 보장합니다. 실험 결과, 기존 최첨단 기법보다 입술 동기화 정확도, 비디오 품질, 속성 제어 가능성 측면에서 우수한 성능을 보였습니다.