Este artículo compara y analiza sistemáticamente dos paradigmas de modelado principales en la generación de texto a música: la decodificación autorregresiva y la coincidencia de flujo condicional. Utilizando el mismo conjunto de datos, la misma configuración de entrenamiento y una arquitectura subyacente similar, entrenamos modelos para ambos paradigmas desde cero y evaluamos su rendimiento en diversos aspectos, como la calidad de la generación, la robustez a las configuraciones de inferencia, la escalabilidad, el cumplimiento de los requisitos de alineación textual y temporal, y las capacidades de edición mediante la reproducción de audio. Esto proporciona información práctica sobre las fortalezas y debilidades de cada paradigma, sus ventajas y desventajas, y el diseño y entrenamiento futuros de sistemas de generación de texto a música.