본 논문은 텍스트를 음악으로 변환하는 시스템(TTM)의 감정 표현 능력을 평가하기 위한 벤치마크인 AImoclips를 제시합니다. 12가지 감정 의도를 바탕으로 6개의 최첨단 TTM 시스템을 사용하여 1,000개 이상의 음악 클립을 생성하고, 111명의 참가자에게 각 클립의 valence와 arousal을 9점 Likert 척도로 평가하게 했습니다. 실험 결과, 상용 시스템은 의도보다 더 쾌적한 음악을 생성하는 경향이 있고, 오픈소스 시스템은 그 반대 경향을 보였습니다. 모든 시스템에서 고각성 상태일 때 감정이 더 정확하게 전달되었으며, 모든 시스템이 감정적 중립성에 치우치는 편향을 보였습니다. AImoclips는 모델별 감정 표현 특성에 대한 통찰력을 제공하고 감정적으로 일치하는 TTM 시스템의 미래 개발을 지원합니다.