Afin de surmonter les limites des méthodes existantes de génération de vertex image par image dans l'animation faciale 3D audio, cet article propose 3DFacePolicy, qui introduit le concept d'« action ». Nous définissons une action comme le changement de trajectoire d'un vertex entre deux images consécutives, et prédisons la séquence d'action de chaque vertex grâce à un mécanisme de contrôle robotique basé sur une politique de diffusion conditionnée par l'audio et les états des vertex. Cela reconfigure la méthode de génération de vertex avec un paradigme de contrôle basé sur l'action, permettant la génération de mouvements faciaux plus naturels et continus. Les résultats expérimentaux sur les jeux de données VOCASET et BIWI démontrent que notre approche surpasse les méthodes de pointe existantes et est particulièrement efficace pour l'animation faciale dynamique, expressive et naturelle.