본 논문은 오디오 기반 말하는 머리(talking head) 생성 분야에서 얼굴 속성 편집 기능을 통합한 FaceEditTalker 프레임워크를 제시합니다. 기존 연구들이 입술 동기화 및 감정 표현에 집중한 것과 달리, FaceEditTalker는 헤어스타일, 액세서리, 미세한 얼굴 특징 등의 시각적 속성을 유연하게 조절하여 사용자 맞춤형 디지털 아바타, 온라인 교육 콘텐츠, 브랜드 특화 디지털 고객 서비스 등 다양한 응용 분야에 활용 가능성을 높입니다. 이를 위해 의미론적 및 세부 특징을 추출하고 속성을 제어하는 이미지 특징 공간 편집 모듈과, 편집된 특징과 오디오 안내 얼굴 랜드마크를 융합하여 확산 기반 생성기를 구동하는 오디오 기반 비디오 생성 모듈로 구성됩니다. 실험 결과, 기존 방법들과 비교하여 입술 동기화 정확도, 비디오 품질, 속성 제어 가능성 측면에서 동등하거나 우수한 성능을 달성함을 보여줍니다.