Cet article compare et analyse systématiquement deux paradigmes majeurs de modélisation pour la génération de texte en musique : le décodage autorégressif et la correspondance de flux conditionnelle. En utilisant le même jeu de données, la même configuration d'apprentissage et une architecture sous-jacente similaire, nous avons entraîné des modèles pour les deux paradigmes de A à Z et évalué leurs performances sur divers aspects, notamment la qualité de la génération, la robustesse aux paramètres d'inférence, l'évolutivité, la conformité aux exigences d'alignement textuel et temporel, et les capacités d'édition par inpainting audio. Cela fournit des informations pratiques sur les forces et les faiblesses de chaque paradigme, leurs compromis, ainsi que sur la conception et l'apprentissage futurs des systèmes de génération de texte en musique.