본 논문은 인간-컴퓨터 상호작용 및 접근성 분야에서 표현력 있는 아바타 시스템을 위한 현실적이고 고충실도의 3D 얼굴 애니메이션 생성을 다룹니다. 기존 방법들의 메시 도메인 의존성으로 인한 한계를 극복하기 위해, 본 논문은 광학적 음성 인식을 지도 학습으로 사용하는 광학적 미분 가능 렌더링을 이용한 새로운 방법인 VisualSpeaker를 제안합니다. VisualSpeaker는 사전 훈련된 Visual Automatic Speech Recognition 모델을 통해 광학적 3D Gaussian Splatting 아바타 렌더링을 통과시켜 얻은 지각적 입술 읽기 손실 함수를 사용합니다. MEAD 데이터셋을 이용한 평가 결과, VisualSpeaker는 표준 Lip Vertex Error 지표를 56.1% 향상시키고 생성된 애니메이션의 지각적 품질을 개선하는 동시에 메시 기반 애니메이션의 제어 가능성을 유지합니다. 특히, 지각적 초점은 정확한 입 모양을 지원하여 수화 아바타에서 유사한 수동 신호를 구분하는 데 필수적인 단서를 제공합니다.