본 논문은 오디오 기반 대화형 얼굴 생성에서 말하는 스타일과 감정 표현 등 얼굴 애니메이션에 대한 충분한 제어가 부족하여 획일적인 결과물이 생성되는 문제를 해결하기 위해, 입술과 오디오 정렬 및 감정 제어라는 두 가지 핵심 요소를 개선하는 새로운 프레임워크 PC-Talk을 제안합니다. PC-Talk은 암시적 키포인트 변형을 통해 입술과 오디오 정렬 제어(단어 수준의 말하는 스타일 편집, 입술 움직임 크기 조절) 및 감정 제어(다양한 강도의 사실적인 감정 표현 생성, 여러 감정의 조합 및 세밀한 강도 조절)를 가능하게 합니다. HDTF와 MEAD 데이터셋에서 실험을 통해 최첨단 성능을 달성함을 보여줍니다.