본 논문은 3D Gaussian Splatting (3DGS) 기반의 실시간 오디오 기반 말하는 머리 생성 프레임워크인 EGSTalker를 제시한다. EGSTalker는 고품질의 얼굴 애니메이션을 합성하기 위해 단 3-5분 분량의 훈련 비디오만 필요하며, 속도와 시각적 충실도를 향상시키도록 설계되었다. 이 프레임워크는 정적 Gaussian 초기화와 오디오 기반 변형의 두 단계로 구성된다. 첫 번째 단계에서는 다중 해상도 해시 삼면체와 Kolmogorov-Arnold Network (KAN)을 사용하여 공간적 특징을 추출하고 컴팩트한 3D Gaussian 표현을 구성한다. 두 번째 단계에서는 Efficient Spatial-Audio Attention (ESAA) 모듈을 제안하여 오디오 및 공간적 단서를 융합하는 동시에 KAN이 해당 Gaussian 변형을 예측한다. 광범위한 실험을 통해 EGSTalker가 최첨단 방법과 비교하여 렌더링 품질과 립싱크 정확도를 달성하는 동시에 추론 속도에서 훨씬 더 뛰어난 성능을 보임을 입증했다.