UniForm est un transformateur de diffusion multitâche unifié qui génère des modalités audio et vidéo à partir d'un espace latent partagé. Contrairement aux approches modulaires distinctes existantes, il capture les corrélations entre le son et l'image grâce à un réseau de débruitage unifié. Il propose des techniques de débruitage et des jetons de tâche spécifiques à chaque tâche pour prendre en charge plusieurs tâches, notamment la génération vidéo-audio, audio-vidéo et texte-audio-vidéo, avec un seul ensemble de paramètres. Il exploite des modèles linguistiques à grande échelle et des ensembles de données conjoints texte-audio-vidéo à grande échelle pour obtenir une génération plus diversifiée que les méthodes existantes. Il atteint des performances proches des modèles monotâches de pointe sur trois tâches de génération, tout en présentant un alignement élevé avec les distributions de données réelles et en permettant une génération plus diversifiée et détaillée.