Để Khắc phục những hạn chế của các phương pháp tạo đỉnh từng khung hình hiện có trong hoạt ảnh khuôn mặt 3D dựa trên âm thanh, bài báo này đề xuất 3DFacePolicy, giới thiệu khái niệm "hành động". Chúng tôi định nghĩa một hành động là sự thay đổi quỹ đạo đỉnh giữa các khung hình liên tiếp và dự đoán chuỗi hành động của mỗi đỉnh bằng cơ chế điều khiển robot dựa trên chính sách khuếch tán, dựa trên trạng thái âm thanh và đỉnh. Điều này cấu hình lại phương pháp tạo đỉnh với mô hình điều khiển dựa trên hành động, cho phép tạo ra các chuyển động khuôn mặt tự nhiên và liên tục hơn. Kết quả thử nghiệm trên các tập dữ liệu VOCASET và BIWI chứng minh rằng phương pháp của chúng tôi vượt trội hơn các phương pháp tiên tiến hiện có và đặc biệt hiệu quả đối với hoạt ảnh khuôn mặt động, biểu cảm và tự nhiên.