본 논문은 오디오 기반 3D 얼굴 애니메이션에서 기존 프레임 단위 정점 생성 방식의 한계를 극복하기 위해, "액션(action)"이라는 개념을 도입한 3DFacePolicy를 제안합니다. 연속 프레임 간 정점 궤적 변화를 액션으로 정의하고, 오디오와 정점 상태를 조건으로 확산 정책(diffusion policy) 기반 로봇 제어 메커니즘을 활용하여 각 정점의 액션 시퀀스를 예측합니다. 이를 통해 액션 기반 제어 패러다임으로 정점 생성 방식을 재구성하여 보다 자연스럽고 연속적인 얼굴 움직임을 생성합니다. VOCASET 및 BIWI 데이터셋 실험 결과, 기존 최첨단 방법보다 성능이 뛰어나며, 역동적이고 표현력이 풍부하며 자연스러운 얼굴 애니메이션에 특히 효과적임을 보였습니다.