Bài báo này trình bày AImoclips, một chuẩn mực để đánh giá khả năng biểu đạt cảm xúc của các hệ thống chuyển văn bản thành nhạc (TTM). Sáu hệ thống TTM hiện đại đã được sử dụng để tạo ra hơn 1.000 đoạn nhạc dựa trên 12 ý định cảm xúc, và 111 người tham gia được yêu cầu đánh giá mức độ cảm xúc và sự kích thích của từng đoạn nhạc trên thang đo Likert 9 điểm. Kết quả thử nghiệm cho thấy các hệ thống thương mại có xu hướng tạo ra âm nhạc dễ chịu hơn dự kiến, trong khi các hệ thống nguồn mở lại thể hiện xu hướng ngược lại. Tất cả các hệ thống đều truyền tải cảm xúc chính xác hơn khi ở trạng thái kích thích cao, và tất cả các hệ thống đều thể hiện xu hướng trung lập về cảm xúc. AImoclips cung cấp cái nhìn sâu sắc về các đặc điểm biểu đạt cảm xúc của từng mô hình và hỗ trợ sự phát triển trong tương lai của các hệ thống TTM phù hợp về mặt cảm xúc.