Bài báo này so sánh và phân tích một cách có hệ thống hai mô hình chính trong việc tạo văn bản thành nhạc: giải mã tự hồi quy và khớp dòng có điều kiện. Sử dụng cùng một tập dữ liệu, cấu hình huấn luyện và kiến trúc nền tảng tương tự, chúng tôi đã huấn luyện các mô hình cho cả hai mô hình từ đầu và đánh giá hiệu suất của chúng trên nhiều khía cạnh, bao gồm chất lượng tạo, độ bền với các thiết lập suy luận, khả năng mở rộng, tuân thủ các yêu cầu căn chỉnh văn bản và thời gian, và khả năng chỉnh sửa thông qua inpainting âm thanh. Bài báo này cung cấp những hiểu biết thực tế về điểm mạnh và điểm yếu của từng mô hình, những đánh đổi của chúng, cũng như thiết kế và huấn luyện trong tương lai của các hệ thống tạo văn bản thành nhạc.