Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Recomposer : édition audio générative guidée par événement

Created by
  • Haebom

Auteur

Daniel P.W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

Contour

Cet article présente un système d'édition de scènes audio complexes du monde réel. Il permet de supprimer, d'insérer et d'améliorer des événements audio individuels dans des scènes complexes où les sources sonores individuelles se chevauchent temporellement. Son fonctionnement repose sur des descriptions d'édition textuelles (par exemple, « améliorer le son de la porte ») et des représentations graphiques du timing des événements issues de transcriptions de roulements d'événements. Il utilise un transformateur encodeur-décodeur avec une représentation SoundStream, entraîné sur des paires d'exemples audio synthétiques (entrée, sortie souhaitée) générés par l'ajout d'événements audio isolés à des arrière-plans du monde réel. Les résultats de l'évaluation révèlent l'importance de chaque élément de la description d'édition (action, classe et timing), démontrant que la « reconstruction » a des applications importantes et pratiques.

Takeaways, Limitations

Takeaways:
Présentation d'un système efficace pour éditer des événements sonores individuels dans des scènes sonores complexes.
L'édition est possible à l'aide d'instructions d'édition textuelles et d'informations sur la synchronisation des événements.
Implémentation efficace du modèle à l'aide de la représentation SoundStream.
Présentation du potentiel d'une nouvelle application d'édition sonore appelée « Reconstruction ».
Vérifiez expérimentalement l’importance de chaque élément de la description de l’édition (action, classe, timing).
Limitations:
Dégradation possible des performances de généralisation aux données du monde réel en raison de la formation utilisant des données synthétiques.
Dépendance à la précision du jet d'événement du guerrier.
La vérification des performances de généralisation pour différents types d’événements acoustiques et de scènes acoustiques complexes est requise.
👍