Dans cet article, nous proposons CMI-Bench, un benchmark complet de suivi de direction musicale qui couvre un large éventail de tâches dans le domaine de la recherche d'informations musicales (MIR). Pour surmonter les limites des benchmarks existants, nous réinterprétons diverses annotations MIR existantes dans un format de suivi de direction et couvrons un large éventail de tâches, notamment la classification des genres, la régression des sentiments, l'étiquetage des sentiments, la classification des instruments, l'estimation de la hauteur tonale, la détection de la tonalité, la transcription des paroles, l'extraction de mélodies, la reconnaissance des techniques vocales, la détection des techniques d'interprétation instrumentale, l'étiquetage musical, la génération de légendes musicales et le suivi des temps forts. CMI-Bench adopte des mesures d'évaluation standardisées pour assurer une comparaison directe avec les modèles MIR de pointe existants et fournit une boîte à outils d'évaluation prenant en charge plusieurs LLM audio-texte open source, notamment LTU, Qwen-audio, SALMONN et MusiLingo. Les résultats expérimentaux démontrent des écarts de performance entre les LLM et les modèles d’apprentissage supervisé, ainsi que des biais culturels, temporels et de genre, soulignant le potentiel et les limites des modèles actuels.